文档章节

来,给大数据热泼点冷水

灵玖lingjoin
 灵玖lingjoin
发布于 2015/01/23 14:36
字数 1590
阅读 5
收藏 0

  “大数据”是近年来国内外业界与学界热议的一个话题。它不仅是对一种技术发展趋势的描述,也被视为蕴含着发展机遇的“下一个创新、竞争和生产力的前沿”。就像农业时代的土地、工业时代的能源,数据被看作是信息时代的核心资源。而“大数据”概念的产生,意味着人们对这一资源的认识正在不断深化,为我们理解和改造世界打开了一扇新的大门。


  但总的来说,“大数据”仍然属于新生事物,人们对相关议题还存在很多不同的、乃至针锋相对的理解。围绕“大数据”的各种争议既展示了这个概念所涉议题的复杂性,也说明这一领域的实践与认识刚刚开始,未来有着无限的可能性。本文选取几个主要的争议点,以呈现一幅更加丰富的“大数据”图景。 



  “大数据”叫错了?


  “大数据”从字面上理解是指规模很大的数据。如麦肯锡在2011年报告中的最早界定,“大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析能力的数据集。目前,大数据的一般范围是从几个TB到数个PB(数千TB)。”


  所谓量变引起质变,基于大规模的数据,人们可以进行很多具有想象力和创造力的探索和实践,而这些探索和实践是在小规模数据的基础上是无法完成、甚至无法想象的。”例如,视频网站Netflix通过分析海量用户的观看行为数据,成功地推出剧集《纸牌屋》;又如,谷歌通过跟踪分析用户搜索关键词的海量数据,对美国流感疫情的估测值与美国疾病控制和预防中心的报告基本一致。


  然而有一些论者认为,“大数据”的命名并不恰当。因为数据规模大并非“大数据”的核心特征,也没有体现新技术趋势的本质。一种观点认为,数据“在线”比数据“大”更体现新技术趋势的核心特征。如阿里巴巴集团CTO兼阿里云总裁王坚称,数据的“在线”远远比数据“大”更反映本质,更体现互联网的特点,而不在线的数据再大也没什么价值。而且,“在线”还使得数据搜集、整理、分析变得容易,并且能够反过来快速对社会产生影响。


  还有一种观点认为,“长数据”(long data)比“大”数据更值得关注,“长数据”即从文明起源至今有关历史事实的数据集。哈佛大学应用数学家萨缪尔·阿布斯曼认为,“大”数据所呈现的只是信息与知识的切片,只有将数据置入长时段的历史中我们才能获取信息与知识的完整图景。而“长数据”不仅能够分析长时段的变迁,也能为当下的趋势变化提供背景。


  大数据时代,数据抽样、因果关系不再重要?


  《大数据时代》的作者维克托·迈尔-舍恩伯格认为,大数据时代在分析信息时发生了三大转变:第一个转变是可供分析的数据更多,甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样,因为采样分析是信息匮乏时代和信息流通受限制的模拟数据时代的产物;第二个转变是追求精确度已变得不可行和不需要,只有掌握大体发展方向即可;第三个转变因前两个转变而促成,我们无须紧盯事物之间的因果关系,而应该寻找相关关系。大数据告诉我们“是什么”而不是“为什么”,“在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。”


  上述三大转变的阐述,有一些常用的案例支撑。如亚马逊网站根据用户在其网站上的类似查询数据来进行产品推荐;Twitter等社交网络通过用户的社交网络图来获知用户喜好。


  这些说法招致很多质疑。大数据可能是存在系统性偏差的数据,如果不对数据总体、数据可靠性与数据来源进行审慎考虑,即使数据规模再大也无法提供关于某个现象的可靠结论。例如,通过分析Twitter的海量数据发现,人们远离家庭时更快乐,在周四的晚上最悲伤。但这个结论的可靠度很低。首先,来自皮尤研究中心的资料显示,只有16%的美国成年网民使用Twitter,这显然不是一个有代表性的样本,它突出了年轻人群体和大城市人口。其次,我们知道很多Twitter账户是由机器自动控制或辅助操作的。最新的估算认为,Twitter上可能有2000万虚假账户。因此,数据捕捉到的那些“人类感情”很可能是由机器表达的。


  不仅如此,当数据规模增大之后,其出现错误的可能也随之增大。北大教授刘德寰以自已翔实的实验数据证明,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。他说,“那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫。”


  刘德寰教授还认为,大数据并不是新事物,天气、地震、量子物理、基因、医学等领域都产生巨量数据,而这些学科都在使用抽样调查的方法。互联网数据挖掘方法论也如此。既然是关于人的研究就需应用所有研究人的方法梳理大数据。

 

 



© 著作权归作者所有

灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
私信 提问
中央再批人工智能伪创新,90%以上AI都不靠谱

来源:非分之想 作者:AI内参(ID:feifenzhi_xiang) 本文长度为1500字,建议阅读3分钟 解读中央再批AI伪创新,分析目前AI现状。 继中央权威媒体《人民日报》在11月对人工智能创新喊刹车后,...

enohtzvqijxo00atz3y8
2017/12/07
0
0
Unity增量更新BsDiff(也适用于整包的增量更新)(转)

原文在这里 前段时间一直在研究增量更新的事情,今天拿来和大家分享一下。相对于传统的热更新,增量更新有明显的优点。 游戏在发布后,基本都是以bundle的形式加载资源,如果后期我们在一个1...

AngerCow
2017/12/15
0
0
Sailfish 系统将不会支持诺基亚 N9

在 Jolla 公布了其最新的 Sailfish 系统之后,不少诺基亚 N9 用户仿佛也看到了自己 MeeGo 系统「重生」的希望。不过今天 Jolla 官方就给这些用户「泼了一盆冷水」,他们正式宣布 Sailfish 将...

平原君
2012/11/23
3.6K
37
分析师说诺基亚与微软的合作“不可能成功”

诺基亚刚刚发布的巨亏4.87亿欧元的财报吓到了投资者也震撼了分析师,Bernstein分析师Pierre Ferragu表示,诺基亚正同时失去普通手机和智能机市场的份额,在一个瞬息万变的市场中节节败退得非...

红薯
2011/07/24
1K
15
中央再批人工智能伪创新!90%以上AI都不靠谱

  继中央权威媒体《人民日报》在11月对人工智能创新喊刹车后,今日另一家中央权威媒体“中央人民广播电台”经济之声《天下财经》栏目,再批人工智能的伪创新——不要像“炒作明星”一样炒作...

人工智能机器人联盟
2017/12/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

3_数组

3_数组

行者终成事
今天
7
0
经典系统设计面试题解析:如何设计TinyURL(二)

原文链接:https://www.educative.io/courses/grokking-the-system-design-interview/m2ygV4E81AR 编者注:本文以一道经典的系统设计面试题:《如何设计TinyURL》的参考答案和解析为例,帮助...

APEMESH
今天
7
0
使用logstash同步MySQL数据到ES

概述   在生成业务常有将MySQL数据同步到ES的需求,如果需要很高的定制化,往往需要开发同步程序用于处理数据。但没有特殊业务需求,官方提供的logstash就很有优势了。   在使用logstas...

zxiaofan666
今天
10
0
X-MSG-IM-分布式信令跟踪能力

经过一周多的鏖战, X-MSG-IM的分布式信令跟踪能力已基本具备, 特点是: 实时. 只有要RX/TX就会实时产生信令跟踪事件, 先入kafka, 再入influxdb待查. 同时提供实时sub/pub接口. 完备. 可以完整...

dev5
今天
7
0
OpenJDK之CyclicBarrier

OpenJDK8,本人看的是openJDK。以前就看过,只是经常忘记,所以记录下 图1 CyclicBarrier是Doug Lea在JDK1.5中引入的,作用就不详细描述了,主要有如下俩个方法使用: await()方法,如果当前线...

克虏伯
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部