文档章节

相关性和因果性:周扒皮原来是大数据应用的先驱者

大大梁
 大大梁
发布于 2017/05/31 15:14
字数 1871
阅读 39
收藏 0

0?wx_fmt=gif

在大数据时代,相关关系似乎替代了因果关系。然而世界具有复杂性,大数据时代世界似乎被数据统治,是混沌的。

 

相关关系是指当一个数据变化时,另一个数据也可能随之变化,不论是这两个数据也没有必然联系。相关关系有可能是正相关也有可能是负相关,有可能是强相关也有可能是弱相关。

 

因果关系是指当一个作为原因的数据变化时,另一个作为结果的数据在一定程度发生变化,这两个数据存在着必然联系。因果关系可能是线性关系,也可能是非线性关系。

 

大数据来了,相关性的凸显,使我们看到了以前不曾注意的联系,掌握了以前很难理解的复杂系统。通过相关性的研究,可以帮助企业赚钱,帮助政府决策就够了,不要讲究“为什么”,至于因果关系就让科学家们慢慢琢磨去吧。

 

相关性倒不是什么新鲜话题,于是乎我想起了地主周扒皮。上世纪四十年代,中国农村某地有个地主叫周扒皮,他雇佣了几个长工为他种地,周扒皮不可能懂得相关关系和因果关系,但他很狡猾,他悟出了两个现象之间的联系,公鸡一叫,太阳不久就会升起。旧时中国农民有个习惯,日出而作,日落而息。于是,每天半夜他到鸡窝旁学鸡叫,引得鸡窝里的公鸡一起打鸣,然后周扒皮到长工屋大喊:鸡都叫了,快下地干活。

 

显然,公鸡叫,太阳升这两个事儿之间并没有什么因果关系,他们之间仅仅是相关关系,因为不能认为公鸡叫是太阳升的原因,太阳升是公鸡叫的结果。如果把天下的公鸡都杀了,太阳从此不升起来了,因果关系才能得到验证。但周扒皮利用相关关系延长了长工的劳动时间,达到了剥削的目的。

 

0?wx_fmt=jpeg

 

古时候没有天气预报,人们往往根据蛙鸣预测有没有雨,但雨水不应是蛤蟆叫出来的。地震前动物往往有异常表现,但地震不应是阿猫阿狗闹出来的。但是了解这些现象之间的相关关系往往有用处。

 

有些学者用世界的复杂性解释大数据复杂性,认为这个世界是混乱的,世界上大多数发生的事是碰巧出现的,完全不受定律和因果性的支配,但这个世界又是数据的,混乱性只有使用大数据才能进行说明。这些观点又用蝴蝶效应进行了说明。据说地球一端更多一只蝴蝶煽动了一下翅膀能引起地球另一端一场暴风雨,并将这一现象引人复杂性科学,是指在一个动力系统中,初始条件下微小的变化能带动整个系统长期巨大的连锁反映。我们不怀疑复杂适应系统理论的科学性,但实在无法验证中国哪一场暴风雨是由美国的哪一只蝴蝶的翅膀引发的,更无法分析其相关性。

 

科学研究的现象都是可重复的,重复考研在实验室中复制,也可以在现实世界中产生。蝴蝶翅膀和暴风雨的关系显然不能在实验室中实验,但我们也无法在现实世界中取得它们相关性的数据。我奶奶和我讲过她父亲的故事,有一天我奶奶的父亲在祖坟里看到了一只狐狸,第二年我奶奶的父亲便娶了一个美如妖的媳妇,就是我奶奶的母亲,但这种事情以后再也没有发生过,不能重复。千年一现的事物只能是传说,不是科学研究的对象。实验室中的实验结果每一次都会有差异,我们通过统计平均,在变化中研究规律,因而千年不变的事物也不是科学研究的对象。现实世界产生的大数据在一定条件下是可以重复和多变的,给科学研究提供了基本条件,也对科学研究提出了新的挑战。

 

几千年来,探讨事物之间的因果关系是理、工、农、医、文几乎所有科学研究的重要目的。相关性和因果性是哲学问题,哲学家、数学家、统计学家、物理学家、医学家、经济学家大都将寻找自身研究领域中的因果关系当做一生的追求。古希腊哲学家说:“我宁肯找到一个因果关系的说明,不愿获得一个波斯王位。”千百年,虽然哲学家思辩方式已深入人心,老百姓还是相信事出有因,宗教人士宣传因果报应。

 

在研究相关关系和因果关系方面,统计学做出了巨大贡献。统计学提出了相关系数,通过计算相关系数判断事物之间的相关关系,对相关系数教学统计检验,若通过检验,证明事物之间的相关程度高,便可以进一步做回归分析。在计算相关系数时,首先要通过理论研究和定性分析筛选变量,对有内在联系的数据做相关分析。与大数据思维不同,统计学认为公鸡叫与太阳升、蛙鸣与下雨,它们之间没有内在联系,即无因果关系,属于虚假相关,尽管相关系数可能很高,也没有做回归分析的必要了。

 

在回归分析中,设xi为自变量,设yi为因变量,统计学的研究几乎穷尽了因果关系的所有可能。对一因一果的现象,可以建立一元回归模型;对多因一果的现象,可以建立多元回归模型;对一因多果的现象,可以建立路径分析等模型;对多因多果的现象,可以建立联立方程等模型。

 

显然,回归模型比相关系数进了一步,它可以解释数据之间作用机制和作用的大小。但回归模型即使通过了各种统计检验,也可能只在一定程度上说明事物之间的因果关系。模型的自变量不一定是原因,因变量不一定是结果。Xi与yi之间的因果关系是否成立,还要由统计学所应用领域的专家来判断,如经济学家、管理学家、生物学家、医学家等,并大量的实践得到检验。统计模型只能说包含真正因果关系的可能性较大,二真值在哪里?上帝知道。

 

大数据可理解为大而复杂的数据,具有异母体、噪音累积、虚

 

原文链接

本文转载自:

大大梁
粉丝 0
博文 225
码字总数 0
作品 0
私信 提问
商业数据分析的四个层次(三) 诊断性分析(Diagnostic Analysis)& 预测性分析 (Predictive Analysis)

上一篇文章向大家介绍了描述性分析的方法和工具,基于此,可以明确到底发生了什么,但是更重要的是明确为什么发生,这就是诊断性分析的作用。 1. 寻找相关特征(feature) 在诊断性分析中,首先...

liyinglong
2017/12/21
0
0
图灵社区| 别拿相关当因果! 因果关系入门

date: 2019-01-29 15:07:47 title: 图灵社区| 别拿相关当因果! 因果关系入门 http://www.ituring.com.cn/book/1780 想法 这本书的英文原文是「why: a guide to finding and using causes」,...

daydaygo
02/03
0
0
大数据时代政府宏观调控的思维模式

政府作为宏观调控的行为主体,其选择行为在受到动机、偏好、认知和效用期望等内生规定的同时,也会在一定程度上受科技进步及其实施手段的影响。大数据、人工智能和互联网或物联网等的发展,正...

技术小能手
2018/08/09
0
0
如何合理地制造“BUG”并且查找BUG

什么是BUG,简单点说就是,程序没有按照我们预想的方式运行。我比较喜欢把BUG分成两类: Crash掉的 没有Crash掉的 可能在平时的编程实践中,往往简单的把BUG与Crash基本等价了。而且我们很多...

oschina
2014/05/22
2.6K
5
【大数据侦查到人工智能的进化】

来源:http://infolaw.fyfz.cn/b/944054?from=groupmessage 原创:谢君泽 感谢作者授权转发! 关于大数据,我近年也一直有跟踪研究,但我只关心大数据的建模问题。因为没有好的建模,大数据发...

xcnhykohj3ek
2018/05/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
28分钟前
3
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
今天
6
0
数据库中间件MyCat

什么是MyCat? 查看官网的介绍是这样说的 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵...

沉浮_
今天
4
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
今天
6
0
常用物流快递单号查询接口种类及对接方法

目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是...

程序的小猿
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部