文档章节

为什么飓风一来,人们都要买蛋挞?大数据时代要转变思维

 数据分析师
发布于 2015/04/20 10:18
字数 1937
阅读 10
收藏 0
点赞 0
评论 0

1. 分析所有数据,而非少量数据

至今为止,人们搜集数据的能力有限,因此采用的是“随机采样分析”。

例如,要想知道中国顾客都联想笔记本的满意度,不可能对所有买了联想笔记本的人做问卷调查。通常的做法是随机找1000个人,用这1000个人的满意度来代表所有人的。

为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机。

这就是“小数据时代”的做法,在不可能搜集全部数据的情况下,随机采样分析在各领域取得了巨大的成功。

但是,随机采样有三个问题:

依赖随机性,而随机性很难做到。例如,使用固定电话随机打给1000户人家,这样也是缺乏随机性的,因为没有考虑到年轻人都使用手机的情况。远看不错,一旦聚焦到某一点,就模糊了。例如,我们用1000个人来代表全国,这1000个人是随机从全国选取的。但是,如果用此结果来判断西藏的满意度,却是缺乏精确的。也就是说,分析结果不能适用于局部。采样的结果只能回答你事先设计好的问题,不能回答你突然意识到的问题。

在”大数据时代“,样本=总体

如今,我们已经有能力搜集到全面而完整的数据。大数据是建立在掌握所有数据、至少是尽可能多的数据的基础上的。

    2. 追求混杂性,而非精确性

在 “小数据”时代,最重要的就是减少测量的错误,因为收集的信息较少,所以必须保证记录尽可能精确,否则细微的错误会被放大。为了精确,科学家必须优化测量 的工具。现代科学就是这么发展过来的,物理学家开尔文(温度的国际单位)说:“测量就是认知”。很多优秀的科学工作者必须要能准确收集和管理数据。

在“大数据”时代,使用所有数据变为可能,且通常是上万亿个数据,要保证每一个数据的精确性是不可想象的,混杂性不可避免。但是,当数据量足够大时,混乱不一定会带来不好的结果。并且,由于放松了容错的标准,所能搜集的数据多了起来,还可以利用这些数据来做更多的事。举一个例子:

要测一个葡萄园的温度,如果只有一个温度计,那必须保证这个测量仪精确且能一直工作。但是如果每100棵葡萄树就有一个测量仪,则虽然有些测量数据是错误的,但是所有数据合起来却能得到一个更准确的结果。

因此,“大数据"通常用概率说话,而不是板着”确凿无疑“的面孔。”大数据“时代要求我们重新审视精确性的优劣。由于数据量太大,我们不再期待精确经,也无法实现精确性。

在 图书馆我们可以看到,所有的书都被分类,例如,要找一本C语言的书籍,必须先找到”工科“分类,然后再找到”计算机“分类,再根据编号(类似于 803.53x)找到需要的书籍,这是传统的方法。如果图书馆的书少,可以这么检索,如果有1亿本呢?10亿本呢?网络上的数据可远非图书馆的藏书量可 比,动则数十亿,如果使用清晰的分类,那么不仅分类的人会疯,查询的人也会疯。因此,现在互联网上广泛使用”标签“,通过标签来检索图片、视频、音乐等。 当然,有时人们会错标标签,这让习惯精确性的人很痛苦,但是,接受”混乱“给我们带来了两个好处:

由于拥有了远比”分类"数量多得多的标签,我们能够获得更多的内容。可以通过标签组合来过滤内容。

例 如,如果我们要检索“徐长卿”。“徐长卿”至少有三种身份:是一种中草药,是命名草药的人的名字,是仙剑3的主人公之一。如果按照传统分类法,可能“徐长 卿”会被分到“中草药”类里,这还取决于分类的人。那么查询的人就不会知道它还有另外两重身份,或者只想查“徐长卿"这个人的人根本就不会到”中草药“类 里查询。但是,如果使用”标签“,那么输入”徐长卿“+”草药“,即可查到草药;输入”徐长卿“+”仙剑3“即可查到游戏的主人公。

因此,使用”标签“代替”分类“,虽然有很多不精确的数据,但是却得到了大量标签,使得检索更方便,得到的结果更好了。

   3. 关注相关关系,而非因果关系

知道”是什么“就够了,没有必要知道”为什么“,要让数据自己”发声“。来看一个例子:

沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。

看到这里,一个马上有人问”为什么飓风一来,人们都要买蛋挞“?

你问”为什么“,说明你注重的是因果关系。而这个“因”,可能是极难分析、且复杂的,而且即便研究出来,意义真的很大吗?对沃尔玛来说,只要知道“飓风来了,快摆蛋挞,准备大赚一笔”就行了,这就是注重的相关关系。

飓风与蛋挞有关,OK,行了,还能赚钱,太好了。为什么?不管,反正有关。

这也是大数据时代需要转变的思维,即关注相关关系,而非因果关系。

通过探求”是什么“,而非”为什么“,能够帮助我们更好地理解世界。但是,由于因果关系在我们的思维中根深蒂固,而且有时会臆想出一些因果关系,反而带来了错误的认知。例如:

父母经常告诉孩子,天冷时不带帽子和手套就会感冒。然而,研究表明,感冒和穿戴之间没有直接的联系。在某餐馆吃饭后,晚上肚子疼,我们会想到原因是餐馆的食物有问题。实际上很可能是和某人握手,或饭前没有洗手的关系。

相关关系能给我们分析问题提供新的视角,我们不需要事事去探究为什么,并且,它使我们相信,不探究”为什么“也是合理的。

但是,并不是说因果关系就应该完全摒弃,而是要灵活地以相关关系的立场来思考问题。

--------------------------------------------------------------------------------------------------------------------------------

了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com

或扫一扫,关注“FineBI专业商业智能解决方案”(微信号:fine_bi

关于数据分析的那些事 - IBFINER - 商业智能

© 著作权归作者所有

共有 人打赏支持
粉丝 29
博文 1645
码字总数 2338861
作品 0
邢台
支付宝账单刷屏,我们的隐私是否已被大数据出卖?

     书目治疗师:   新年伊始,我的朋友圈被网易云音乐的年度报告和支付宝的年度账单刷屏了。我承认,看到大家都在“秀晒炫”,我也忍不住好奇去查看属于我的年度总结。一方面,我依赖...

大数据头条
01/11
0
0
互联网人必读 | 大数据思维的十大核心原理

大数据思维是客观存在,大数据思维是新的思维观。用大数据思维方式思考问题,解决问题是当下企业潮流。大数据思维开启了一次重大的时代转型。 大数据思维原理是什么?笔者概括为10项原理。 一...

勿忘初心321
2016/08/24
18
0
何大安:大数据思维改变人类认知的经济学分析

一 经济学因果思维模式及其局限性 在人类改造自然和变革制度的历史长河中,认知水平在相当长的时期内是受制于数据积累的。在农业时代,人们主要是靠文字记载和简单数学工具等进行数据积累,数...

技术小能手
昨天
0
0
以“魔镜”为代表的智能硬件,为什么火不起来?

一个产品之所以火,光是广告打得响还不行,还得靠口碑、靠传播。人们只有在自己真正使用了之后感觉到“爽”的产品,才乐于传播。而魔镜对于用户而言,并没有达到这种效果。 简单的说,所谓的...

dusong
06/09
0
0
推荐一本大数据的书籍,非技术类

因为关注大数据,也写过若干关于大数据的文章,做过若干关于大数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣。过去几年,在这方面读过十几本书,上百篇论文和文章。相对而言,舍恩伯...

八千里路
06/26
0
0
互联网思维“独孤九剑”:传统企业互联网化的心法

课前秀:三个段子 第一个段子:有一个毫无餐饮行业经验的人,他开了一家餐馆,菜品只有12道,在北京只有两家分店;仅两个月时间,就实现了所在商场餐厅坪效第一名; 绿茶单位坪效大约是100元...

罪恶的花生
2014/06/10
0
0
9小时交易额1000亿,这些技术在双十一给你下“圈套“,让你不停买买买

为什么页面显示都是自己所心水的东西?为什么现在的快递速度那么快? 9小时的时间,今年双十一仅淘宝天猫的交易额就达到了1000亿。 作为买买买的主力军,先问大家一个问题:购物车里面的东西...

行者武松
03/15
0
0
“第十届政府CIO班开学典礼”顺利举行

孟夏之日,万物并秀。2017年5月18日上午,由国家信息中心主办、CIO时代学院承办的“第十届政府CIO班开学典礼”在北京大学隆重举行。来自全国各地的近30名政府信息化负责人相聚于此,一起参加...

玄学酱
03/29
0
0
人工智能和大数据浪潮下,哪些职业几乎不会失业?你是否身在其中

如今的时代是人工智能时代,是大数据信息化时代,很多传统行业受到严重威胁,一些行业可能昨天还风光无限,今天就可能奄奄一息,朝不保夕。互联网大佬马云提出的“新零售、新制造、新能源、新...

qq_41842579
03/28
0
0
愚人的故事-<做事智慧一点通>

卡莉和艾琳曾经为一个鸟笼打过一次赌. 卡莉说:"如果我送给你一个鸟笼,并且挂在你的房中最显眼的地方,那么,我保证你就会去买一只鸟回来." 艾琳笑着说:"养只鸟是多么麻烦的事情啊,我...

Beaver_
2015/03/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Python3学习日志二 Python中的集合set和字典dict

1.集合set 定义一个集合set 我们可以看到定义集合set有两种不同的形式,如果要定义一个空的集合set不能用{}而是要用set();另外,集合是无序的,而且set中的元素是不可重复的,如果你定义了一...

Mr_bullshit
5分钟前
0
0
adb 操作指令详解

ADB,即 Android Debug Bridge,它是 Android 开发/测试人员不可替代的强大工具,也是 Android 设备玩家的好玩具。 注:有部分命令的支持情况可能与 Android 系统版本及定制 ROM 的实现有关。...

孟飞阳
12分钟前
0
0
nodejs安装以及环境配置(很好的node安装和配置文章,少走很多弯路)

一、安装环境 1、本机系统:Windows 10 Pro(64位) 2、Node.js:v6.9.2LTS(64位) 二、安装Node.js步骤 1、下载对应你系统的Node.js版本:https://nodejs.org/en/download/ 2、选安装目录进...

sprouting
28分钟前
0
0
Redisson

了解了Redisson,发现使用挺简单的,接下来准备深入学习一下。 Redisson介绍 Redisson是架设于Redis基础之上的一个Java驻内存数据网格(In-Memory Data Grid) Redisson在基于NIO的Netty框架上...

to_ln
29分钟前
0
0
python有哪些好玩的应用实现,用python爬虫做一个二维码生成器

python爬虫不止可以批量下载数据,还可以有很多有趣的应用,之前也发过很多,比如天气预报实时查询、cmd版的实时翻译、快速浏览论坛热门帖等等,这些都可以算是爬虫的另一个应用方向! 今天给...

python玩家
29分钟前
0
0
jq 判断复选框是否被选中,复选框后台接收

1. 效果 2. 代码 html部分: JS部分: var rememberLogin = $("#rememberLoginId").is(':checked')//获取复选框是否被选中 var rememberLoginval = $("#rememberLoginId").attr('value')//拿......

Lucky_Me
36分钟前
0
0
python爬虫日志(3)-爬去异步加载网页

在浏览器检查元素页面中,选取Network中的XHR选项即可观察每次加载页面,网页发出的请求,观察url的规律即可利用封装的函数对每一页进行爬取。

茫羽行
36分钟前
0
0
《趣谈网络协议》之为什么要学习网络协议?

一、协议 1.协议的定义 简单说协议就是一个规则,保证沟通交流双方可以互相听懂、理解或者可以双方合作可以顺利进行的一个约定和规则。 2.生活中例子 (1)有一种叫“程序猿”的物种,敲着一种...

aibinxiao
38分钟前
1
0
Python数据分析numpy基础-维度的认识

什么是多维数组? 核心对象是同型的多维数组(简单理解就是一个表格,通常内容都是些数字),具有相同的数据类型。 概念: 1. axes(轴):数组的维度统称为轴。 2. rank:轴的数量称为rank。...

十年磨一剑3344
42分钟前
0
0
Java 正则表达式相关资料

1.java正则表达式过滤html标签

IT追寻者
45分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部