文档章节

8个案例让数据不再撒谎

 数据分析师
发布于 2014/11/15 21:29
字数 2316
阅读 10
收藏 0
点赞 0
评论 0

最近关于数据造假的评论很多,数据说谎的情况有两种,一种是出于某种目的,人为的将公示的数据注入一些水分;另一种“假”则是因为对业务不了解或经验的不足而在数据解读上的一种误读。什么被平均啊,什么统计局这些都是老生常谈的案例,EC数据分析网重新收录整理了一些案例供大家参考。

【案例一】、@曹政  通过可控的客户端采样监测,得到了一定样本的,包含google搜索url特征的日志记录,得到google的搜索量;同样的样本下,采集到包含google adwords广告url特征的日志记录,得到google的广告点击数。 那么,理所当然&一厢情愿的 用点击数/搜索量,得到点击率。 但是,这个点击率是显著错误的,理由是,google的adwords广告点击,并不只发生在google的搜索结果中! 当时的情况是,点击率被高估了一倍。(其实已经区分了adsense和adwords广告点击的url特征,但是adwords也会出现在其他网站)

对数据逻辑及相互关系的理解不透彻,就会带来错误的解读。

【案例二】、某同事,名校计算机博士,算法达人,做了一条曲线,A和B高度相关,得到结论,A会导致B,看一眼结论我就骂人了,狗屎结论,实际上是A和B均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。 

这个不仅仅是不懂业务的典型,统计基础也不牢靠,亲,这个时候该试试偏相关系数。

【案例三】、@曹政  样本偏差,特典型的就是沉默的大多数现象,简单举例,去IT论坛,发个投票,百度好不好,腾讯好不好,多数人会说不好。但是真正的用户是不会去IT论坛,更不会参与这种无聊的投票;所以这种投票得到的结论,你要真信,你就傻了。 此外,还有比如送礼品的票选,喜欢这种礼品的用户,本身就有倾向性,如果票选内容与礼品有关,那么结论显然是不可靠的。

诸如此类投票数据娱乐成分居多,而对于样本偏差和偏好性的问题都是在问卷调查中明确需要规避的问题。

 

【案例四】、@曹政  有人提到预测未来,补充一点,就是用户不知道自己的未来。这也是普遍做样本调查容易产生的误区。如果时间前溯10年,你问一个用户,你会去买苹果手机吗?他肯定会说,你是不是疯了。但是当真的很酷的苹果手机放到他手上,他才会有感觉。 这是有真实案例的,十几年前,手机还叫大哥大,还是大款们才特有的玩物,真有调查公司跑到路边采访行人,说你需要买手机吗,行人纷纷表示不需要。他们不知道这玩意对他们人生的改变有多大。10年前,又有类似的事情,上网当时被认为是不务正业的表现,报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害;然后又有媒体去采访,很多人表示,上不上网无所谓。这些都是当年一些新闻电视里出现过的典型场景。如果你相信,你就真完了。

这里的问题是,用户不能预知技术的发展和对人类群体乃至自身的改变;当然,有的人能看到,1997年,还在读书,我一直纠结大学毕业能做什么,第一次接触到了互联网,我坚定,这是改变人类的东西,这是我一辈子的职业。

这个案例涉及的问题就有点多了,一是统计时效性的问题,拿10年前的观念和今天的观念对比明显就不合适了,二是统计环境的变化会对预测结果产生很大的差异,不在同一参照系内的对比是毫无意义的。

【案例五】、@陈义  来自斯坦福讲义里的一个简单例子(plato.stanford.edu/entries…)。某大学历史系和地理系招生,共有13男13女报名。

                                                                                 Men     Women

                                                         History           1/5    <    2/8

                                                     Geography        6/8    <    4/5

                                                      University        7/13   >   6/13

历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:

1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。

2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)

这个案例应该叫数据错觉或许更好些,和之前流传较广的找零钱的交易类似,“分母”很重要。

【案例六】、@fenng  :一个例子是当年Firefox用户与Mac用户对支付宝重要与否,单从浏览器数据统计看,Firefox访问支付宝的比例太低了。不过因为支付宝不支持Firefox,所以,这个比例不能用作判断的依据。Mac用户也是一样。再说一个,支付宝当年代缴水电煤的项目改版之后,发现缴费用户立刻暴增,产品人员欣喜若狂,后来白鸦同学分析一下,哦,原来那几天是每个月水电煤缴费高峰期,周期性的抽风。

背景性问题,常识性问题,周期性问题、行业性问题….又回到了“扫地大妈”的传奇中,不解释!

 

【案例七】、@冯沁原:选取音乐电台用户的一个子集,共2W人;分成AB两组,每组1W人;对每一组使用不同的推荐算法。统计在一天内每一组的用户一共点击了多少次喜欢的按钮和不喜欢的按钮。计算每组用户点击喜欢的按钮的比例 = 点击的喜欢个数/(点击喜欢的个数+点击不喜欢的个数)理论上这个值越高,说明这组用户越满意,也就说明用在这组上的推荐算法更好。

后来发现这个结果没有统计意义…… 因为有些用户会一天给出上千个喜欢与不喜欢的反馈,这样的用户在AB两组中的分布决定了最终结果的好坏。

改进方法是:需要去除这些噪音点,或者使用其他的统计值。我们还针对AB两组用户分别统计了:平均每个用户每天点击喜欢的音乐的个数。按理说,这个个数越高,说明推荐算法越好。可是,我们又针对AB两组用户分别统计了:平均每个用户每天点击不喜欢的音乐的个数。按理说,这个个数越高,说明推荐算法越差。结果,发现在很多情况下,第一个个数高的算法,第二个个数也高。于是,使用单一指标也许不能很好的刻画一个算法。改进方法是:使用更多的指标来进行刻画,具体问题具体分析,寻找背后的原因。

现在建立了另外一套评估模型,具体效果正在评测中。我的建议是,把眼界放宽,从多个维度、多个角度、多个层次来看数据。把分析问题的原因作为目标,不断的改进自己的评估参数和方案。

【案例八】、@马顺仁: 游戏中对很多内容或操作做数据监控,然后通过分析数据的提高还是降低,去判断用户对该内容的喜欢程度。但是单独看数据的提高和降低是没有意义的。例如,我们发现某项物品最近销售数据在下滑,我们可能就会下结论:这个物品受欢迎程度在下降。但这个结论是不准确的,必须结合着其他的数据一块看,例如DAU。

如果DAU在下降,那么该物品的销售随之下降是正常的,如果结合着比例来看,有可能会发现虽然销售数据在下降,但是比例数据(即销售数/DAU)是在上升的。这样会明白,其实该物品的受欢迎程度并没有下降了,而是DAU下降了。而在DAU下降的同时,销售比例在上升,其实该物品的受欢迎程度反倒是提高了。

和前面很多案例一样,都是单点看问题,这样往往得到的是以点盖面的结论。


© 著作权归作者所有

共有 人打赏支持
粉丝 29
博文 1645
码字总数 2338861
作品 0
邢台
通过ssh连接mysql的php代码怎么写

由于服务器只支持通过ssh链接mysql 现在需要改大量mysql中的数据 有没有办法通过php代码链接mysql ssh连接mysql 的php代码要怎么写? 大神们给个案例可好 端口ssh22...

非法沣 ⋅ 2015/12/07 ⋅ 2

数博会“十佳大数据案例”发布,我们入选了。

日前,贵阳数博会发布了全国“十佳大数据案例”—— 阿里云大数据平台“数加”成功入选,也成为了唯一入选的云计算厂商。 这些案例由专家评审组从全国30个省市申报的1057个案例中推选出。 什么...

阿里云头条 ⋅ 05/29 ⋅ 0

如何判断微信中,对方对你说谎?

说谎是生活中必不可少的交际,有些谎言是善意的,而有些则是恶意的。说谎的人会露出马脚。大部分人都会努力对谎言加以掩饰,但同时控制话语、声音、表情和肢体语言可不是简单的事情。声音和表...

康斯坦丁K ⋅ 2017/11/18 ⋅ 0

如何对hbase数据表进行分组统计?

cookieid ..... ip XXX1cw1 192.168.2.34 XXX1cw2 192.168.2.32 XXX1cw3 192.168.2.33 XXX1cw4 192.168.2.34 XXX1cw5 192.168.2.35 XXX1cw6 192.168.2.32 在mysql分组统计中用group by关键字......

诠释这低调 ⋅ 2013/07/17 ⋅ 3

创业公司撒谎的正确姿势是怎样的?

  一亩田在周五(8月28日)晚大规模辞退销售员工,辞退理由是“严重违反了公司的规章制度”。一亩田曾因“数据造假问题”闹得风生水起,关于创业公司撒谎造假的问题也再次进入人们的眼线。是...

于明 ⋅ 2015/09/01 ⋅ 0

Kindeditor 编辑器嵌入slideshare代码的问题

在此编辑器中嵌入slideshare(在线PPT)的代码,怎么预览显示不出来呢,乖乖~ 谁能回复个案例出来,谢谢。

小卒过河 ⋅ 2011/09/15 ⋅ 1

关于SVM的那点破事

SVM的实现工具箱有很多,但我还是认为libsvm最好用(lssvm也不错的说),我认为把这一个SVM的实现工具箱研究的透彻就够了,反正我是够用了,即如果现在需要SVM这个工具来进行分类或者回归我可...

Failure ⋅ 2016/04/06 ⋅ 0

如何在Spring Boot中使用TDD写出高质量的接口

之前在《如何说服你的同事使用TDD》中介绍了为什么要使用TDD(测试驱动开发),以及如何使用TDD写代码。文章发表后,有同学在评论区中表示文章写得不错,但是举得例子太过脱离实际了,能不能...

SexyCode ⋅ 01/08 ⋅ 0

35个流行UI概念设计欣赏

UI设计师,是一个比较前卫和新颖的职业。而设计师们往往会设计出一些概念性质较强的作品,也许现在不能实现,未来技术在发展后,或许或出现的UI作品。收集了35个案例,如果你关注,可详读。 ...

Jerikc ⋅ 2014/06/09 ⋅ 0

C# winfrom 在窗体中怎么实现勾选checkbox删除图片(最好有源码!!谢谢!!)

如上图,我在数据库保存的是图片路径,现在怎么把它显示在一个窗体中,效果图如上面截图,然后但我勾选checkbox时 ,可以进行删除(可以多选,多删),求各位帮帮忙,很急 !!!最好给个案例...

华神再世 ⋅ 2012/11/24 ⋅ 3

没有更多内容

加载失败,请刷新页面

加载更多

下一页

笔试题之Java基础部分【简】【一】

基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语法,集合的语法,io 的语法,虚拟机方面的语法,其他 1.length、length()和size() length针对...

anlve ⋅ 15分钟前 ⋅ 1

table eg

user_id user_name full_name 1 zhangsan 张三 2 lisi 李四 `` ™ [========] 2018-06-18 09:42:06 星期一½ gdsgagagagdsgasgagadsgdasgagsa...

qwfys ⋅ 40分钟前 ⋅ 0

一个有趣的Java问题

先来看看源码: public class TestDemo { public static void main(String[] args) { Integer a = 10; Integer b = 20; swap(a, b); System.out......

linxyz ⋅ 44分钟前 ⋅ 0

十五周二次课

十五周二次课 17.1mysql主从介绍 17.2准备工作 17.3配置主 17.4配置从 17.5测试主从同步 17.1mysql主从介绍 MySQL主从介绍 MySQL主从又叫做Replication、AB复制。简单讲就是A和B两台机器做主...

河图再现 ⋅ 今天 ⋅ 0

docker安装snmp rrdtool环境

以Ubuntu16:04作为基础版本 docker pull ubuntu:16.04 启动一个容器 docker run -d -i -t --name flow_mete ubuntu:16.04 bash 进入容器 docker exec -it flow_mete bash cd ~ 安装基本软件 ......

messud4312 ⋅ 今天 ⋅ 0

OSChina 周一乱弹 —— 快别开心了,你还没有女友呢。

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @莱布妮子 :分享吴彤的单曲《好春光》 《好春光》- 吴彤 手机党少年们想听歌,请使劲儿戳(这里) @clouddyy :小萝莉街上乱跑,误把我认错成...

小小编辑 ⋅ 今天 ⋅ 8

Java 开发者不容错过的 12 种高效工具

Java 开发者常常都会想办法如何更快地编写 Java 代码,让编程变得更加轻松。目前,市面上涌现出越来越多的高效编程工具。所以,以下总结了一系列工具列表,其中包含了大多数开发人员已经使用...

jason_kiss ⋅ 昨天 ⋅ 0

Linux下php访问远程ms sqlserver

1、安装freetds(略,安装在/opt/local/freetds 下) 2、cd /path/to/php-5.6.36/ 进入PHP源码目录 3、cd ext/mssql进入MSSQL模块源码目录 4、/opt/php/bin/phpize生成编译配置文件 5、 . ./...

wangxuwei ⋅ 昨天 ⋅ 0

如何成为技术专家

文章来源于 -- 时间的朋友 拥有良好的心态。首先要有空杯心态,用欣赏的眼光发现并学习别人的长处,包括但不限于工具的使用,工作方法,解决问题以及规划未来的能力等。向别人学习的同时要注...

长安一梦 ⋅ 昨天 ⋅ 0

Linux vmstat命令实战详解

vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。这个命令是我查看Linux/Unix最喜爱的命令...

刘祖鹏 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部