文档章节

《统计数据的真相》和《用图表说话》

十万猛虎下画山
 十万猛虎下画山
发布于 2018/05/03 18:32
字数 1542
阅读 16
收藏 0

《统计数据的真相》

通过扩大抽样实验的规模,数据的可信度会大大提高。

增长率和增长率的增长率

假如一个公司销售额分别为:

100、101、102.5。

从上面的数据可得出结论:销售额先增长了1%,然后又增长了1.49%(1.5/101)。客观的说,这个增长率数字非常小,也可以说,后一个增长率几乎贴在前一个数据之上,原则上我们不能用“具有活力”这个词来描述这个公司的销售情况。

相反,如果我们不从增长率这个初始数据也出发,而改用增长率的增长率来表示,那么,情况就会发生根本性的变化。如果销售额在第1年增长1%,第2年比第1年又增长了1.49%,那么第2年的销售额比第1年销售额增长了49%!

短期条件下,趋势可以作为准绳。 (奶牛产奶预测例子)

抽样检查存在样本畸形的情况(二战后美国在德国进行体重调查,秤放在广场,只有吃饱的人才能出门,而吃不饱的不会出门。实际上站在秤上的标准,已然过滤掉大部分食不果腹的人群。)

书中还提到了幸存者偏差

特别当心数字图形在较高维度(二维,三维)中的表现,因为数字图形与维度经常不匹配。

调查问题时提问方式可能会带来不同的反馈,关于抽烟和祈祷的笑话。(如果希望得到一个明智的回答,那么你必须理智的提问-歌德)

《用图表说话》

第二步,确定相对关系

图表相对关系的五种类型:

1.成分相对关系(占总体百分比)

    在一个成分相对关系里,我们的兴趣主要在于每一个部分所占的百分比。

    如:在5月份,A产品预计将占到公司总销售额的最大份额。

成分相对关系最好使用饼图,因为饼图能给你一种整体的形象。

为了使饼图尽量发挥作用,使用中最好不要多于6中成分,如果超过6种,那么就选择6种最重要的,并将未选中的列为“其他范畴”,人眼是比较习惯按照顺时针方向进行观察,所以应将最重要的部分放在紧靠12点钟的位置,并用颜色强调,如果没有重要,就按所占比重大小排。

(书里也有用别的图的)我们最初使用图的目的是阐明关系的过程比使用列表更加快捷清晰,当图的形式比内容更加突出,就是说当图表的设计干预了受众对内容的掌握时,就会影响他们做出正确的判断。

如果你的目的是想表达精确的对比关系,请克制你强烈的创造欲,并使用传统的饼图。

2.项目相对关系(项排名)

在项目相对关系里,我们想要比较事物的排列方法。(他们差不多,还是一个比另一个更多或更少?)    如:在5月份,A产品销售额相当于B、C销售额之和。

有时,你可能想用柱形图来代替条形图,用垂直的条形图来代替水平的以表明一个项的相对关系,其实没什么错,但是在90%的情况中,有两个原因你不应该使用柱形图。

第一,通过使用条形图可以减少把项的对比关系误解为时间序列相对关系的可能。

第二,排版上的问题,条形图项名称上可以横排,柱状图过长的项名称就要横排了

3.时间序列相对关系(如何随着时间变化)

我们对它们怎么随着时间变化感兴趣:它们每星期,每月,每季度和每年的变化趋势是增长的、减少的、上下波动或者是基本保持不变。

如:投资回报在过去的5年里急剧下降。

一般使用,柱状图或折线图,取决于哪个使用方便,如果只有少数项,比如说7-8个,那就是有柱状图,反之,你要在图中展示20多年来每个季度变化趋势,最好还是用折线图。

也可以考虑一下数据本质。柱状图强调的是数量的级别,更适合表现在一小段时间里发生的事件。

折线图强调的是角度的运动及图像的变换,因此展示数据的发展趋势,最好使用它。

4.频率分布相对关系(项的分布情况)

各数值范围内个包含了多少个项目,比如说有多少人工资在8000到12000之间,等等。

典型信息如:在5月,大多数地区的销售额在1000,到2000美元之间。

这一类相对关系的有关术语有:从X到Y、集中、频率与分布等。

5.相关性相对关系(变量间关系)

相关性相对关系显示的是两个变量的关系是否符合你索要证明的模式,例如说,你可能期望利润和销售额同比增长;

当你的信息包括与。。。有关,随。。。而增长,随。。。而下降,随。。。而改变,随。。。。而不同等,或者反过来说,比如不随。。。而增长等,那么可以肯定是一个相关性相对关系。

如:订单的大小与客户收入成正比(增长)

 

 

© 著作权归作者所有

十万猛虎下画山
粉丝 6
博文 131
码字总数 99950
作品 0
朝阳
程序员
私信 提问
t-io 2.2.0 发布,氦氪云特别发布版

本次发版要点 为氦氪云提供网络接入层服务时(t-io接到的首个商业服务),对方提出了一些监控需求,所以t-io及时跟进发了此版本 最新消息 贝密游戏已经全面从netty转向t-io,重要的是口碑极好...

talent-tan
2018/04/08
3K
39
死磕数据分析(3)-生活中与你朝夕相处的概率学

第二课:人工智能时代,用概率思维发现人生机会 1.概率 1.1定义 概率是用数值来表示某件事情发生的可能性,从某种程度上来说可以预测未来 1.2计算方法 计算公式 事件A的概率=发生事件A的可能...

成长炸了
2018/09/22
0
0
为什么我劝你买比特币?一碗真诚不作的鸡汤...

“你投资的不仅是数字资产,而是整个区块链时代” 更多币圈资讯,请关注「智能比特」(ID:aibit2017) ▼ 为什么我劝你买比特币?一碗真诚不作的鸡汤... 笔者是一个做事都喜欢问 why 的人,...

智能比特
03/19
0
0
手把手 | Python代码和贝叶斯理论告诉你,谁是最好的棒球选手

     大数据文摘作品   编译:李雷、张馨月、王梦泽、小鱼   除了文中所附的代码块,你也可以在文末找到整个程序在Jupyter Notebook上的链接。   在数据科学或统计学领域的众多话题...

大数据文摘
2018/04/18
0
0
统计学有多无聊?谷歌首席决策师这样说

转自:大数据文摘(ID:BigDataDigest) 编译:王缘缘、蔡婕、小七 来源:medium 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科...

DataHunter小数
04/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

计算机实现原理专题--二进制减法器(二)

在计算机实现原理专题--二进制减法器(一)中说明了基本原理,现准备说明如何来实现。 首先第一步255-b运算相当于对b进行按位取反,因此可将8个非门组成如下图的形式: 由于每次做减法时,我...

FAT_mt
昨天
6
0
好程序员大数据学习路线分享函数+map映射+元祖

好程序员大数据学习路线分享函数+map映射+元祖,大数据各个平台上的语言实现 hadoop 由java实现,2003年至今,三大块:数据处理,数据存储,数据计算 存储: hbase --> 数据成表 处理: hive --> 数...

好程序员官方
昨天
7
0
tabel 中含有复选框的列 数据理解

1、el-ui中实现某一列为复选框 实现多选非常简单: 手动添加一个el-table-column,设type属性为selction即可; 2、@selection-change事件:选项发生勾选状态变化时触发该事件 <el-table @sel...

everthing
昨天
6
0
【技术分享】TestFlight测试的流程文档

上架基本需求资料 1、苹果开发者账号(如还没账号先申请-苹果开发者账号申请教程) 2、开发好的APP 通过本篇教程,可以学习到ios证书申请和打包ipa上传到appstoreconnect.apple.com进行TestF...

qtb999
昨天
10
0
再见 Spring Boot 1.X,Spring Boot 2.X 走向舞台中心

2019年8月6日,Spring 官方在其博客宣布,Spring Boot 1.x 停止维护,Spring Boot 1.x 生命周期正式结束。 其实早在2018年7月30号,Spring 官方就已经在博客进行过预告,Spring Boot 1.X 将维...

Java技术剑
昨天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部