文档章节

大数据时代 别以为自己真的懂 Big Data

灵玖lingjoin
 灵玖lingjoin
发布于 2015/01/22 15:59
字数 1328
阅读 4
收藏 0

最近「大数据( Big Data )」严然变成流行字,感谢科技界的搜索引擎、智能电话、社交媒体等等,由于我们的生活越来越离不开网络,智能手机、平板、电脑……每日透过各项产品连接互联网并使用的资料越来越庞大,形成新的话题。曾经是科技界的新宠儿,现在变成商业界的奇货。谁能掌握在手,谁就能获得更大的商机。


你真的懂得大数据吗?


仔细想想,你真的懂得大数据吗?笔者发现很多人其实都是道听涂说,一知半解。最近 RADICA DATA LAB 早前进行「大数据市场应用调查」,表示教育水平更高者更熟悉大数据。


大数据其实并不是甚么新奇奥秘的玩意,说穿了它就只是 Found Data ,将零散杂乱的各种数据统合分析,从而演算出某些结论、推测以及反应。昔日的数据库是被动的,它要求使用者逐一回馈,像是填写各项问卷、蒐集技术样本等等。


「最可能的答案」而非「最正确的答案」


不论是收集过程、数量以及分析数据都需要花费大量时间,而且往往是针对一些特定主题及目的,数据亦不够全面。然而由于现在电脑及手机的普及,以及网络通讯的流行,实现新的数据收集方式:将大量「数位化资讯」进行演算分析从而「数据化」。即使是普通人也会听闻及发现,为什么手机会知道自己的喜好,搜索时都是将自己常去的网站搬前,显示的广告都是自己有兴趣的,这就是大众所感知到的「大数据」如何影响自己。


大数据有别过去收集数据的方式,它不需要刻版而特定的数据,纵使再零碎不全,都一律交由电脑收集及识别。大众日常于网络上做的每一步活动,都有纪录下来,让有关方面可以因应需要分析用家个人喜好、居住地区、考虑条件、特定浏览时间等等提供「最可能的答案」,而非「最正确的答案」。


大数据重视关连


大数据是违反科学的:科学讲求精确,它却讲求模煳。科学讲求因果,它只重视关连。科学只纪录有用的数据,它却是所有数据都有价值。早于 20 世纪 20 年代 B.Russell 就提出过有关的论文,及后 1965 年 L.A.zadeh 发表模煳集合理论,正式奠定基础。模煳理论实际上是模煳集合、模煳关系、模煳逻辑、模煳控制、模煳量测等理论的泛称。


过去人类尤其是西方科学重精确轻模煳,胡适亦曾撰文<差不多先生传>,崇尚西方学风的他们抨击讽刺中国人特有的「近似推理( Approximation reasoning )」:缺乏科学精神,凡事模棱两可,只要差不多就好。讽刺的是不出数十年,西方科技发展就要学习差不多先生,追求不明确与模煳概念。事实上,模煳理论应用最有效最广泛的领域就是模煳控制。模煳控制出人意料的解决了传统西方理论逻辑无法解决或难以解决的疑难,并取得了一些惊人的成效:大数据就是其中的表表者。


大数据未必百分百正确,但又合乎一般人理解的范围


例如「青年」这个概念,它的内涵大家都清楚明白,但是什么样的年龄阶段内的人是青年,恐怕大家莫衷一是,因为在「青年」这个概念中没有一个清晰确定的边界与外延,这就是模煳概念。人们在认识模煳性时往往带有主观性,每个人对模煳事物的认知不可能完全相同。我们询问一千人他们认知中「年青」的年龄范围,那么我们可能得到一千个不同的答案。尽管如此,当我们用模煳统计的方法对海量数据进行分析时,答案又具有一定的规律性。


大数据就是以相近的塬理运作,假设我们要求电脑在甲城市报告「低收入青年的数量」,这里所说的「低收入」、「青年」都是模煳概念,过去的统计学要先求出「何谓低收入」「何谓青年」的「精确范围」然后才能进行下一步的统计:你要先告诉电脑某个薪金以下是低收入,哪个年龄阶层是青年,然后在资料库指定栏位找符合的条目。然而在大数据时代下,电脑能通过模煳概念去分析判断,演算法会自己跑自己分析「低收入」及「青年」大概的范围,将相关的数据条列出来。它未必百分百正确,但又合乎一般人理解的范围。

 



© 著作权归作者所有

共有 人打赏支持
灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
私信 提问
鸟窝大数据,帮您找客户精准推广信息!

  大数据(big data)是一种大规模的数据集合,在营销推广中最重要的应用特征是数据维度。通过数据沉淀,商家可以找到目标消费人群,让自己的商品出现在正好需要的消费者眼前。   鸟窝大数...

sdywl
2018/08/28
0
0
相比于传统 BI,基于 Hadoop 的大数据(Big Data)战略有何不同?

作者:miao君 链接:https://www.zhihu.com/question/20357162/answer/142407798 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 可以参考这个问题的回答...

chenhao_asd
2018/04/23
0
0
推荐 :数据科学研究的现状与趋势

作者:朝乐门(中国人民大学)、邢春晓(清华大学)、张勇(清华大学) 来源:《计算机科学》,2018,45(1):1-13. 转自:数据科学DataScience 公众号,获授权; 摘 要 大数据时代的到来催生了...

数据分析v
2018/11/09
0
0
当“大数据”落地,当技术接轨商业

作者:(美)大卫·芬雷布 盛杨燕 译   从2012年以来,“大数据”持续升温(《纽约时报》就把2012年定义为 “大数据的十字路口”),跟着“热闹围观”的还有图书市场。截至目前,关于大数据的代...

oschina
2014/01/18
2.3K
8
大数据究竟是怎么出现的,又代表着什么意思呢?

  你可能有注意到,大数据在我们的生活里已经掀起滔天巨浪,继云端运算之后,俨然成为学术界跟科技业中最热门的潮字,似乎每家公司都在进行有关的研究,三句不离大数据。究竟大数据是怎么出...

大数据头条
2018/01/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

ToolBar控件在C#开发APP中的使用方式【附案例源码】——Smobiler移动开发平台

控件说明 底部工具栏控件。 效果演示 其他效果 该界面为仿淘宝UI制作的一个简单的UI模板,源码获取方式请拉至文章末尾。 特色属性 属性 属性说明 Direction(相对布局) 容器主轴方向。 Flex...

amanda112
17分钟前
0
0
模块

AMD是"Asynchronous Module Definition"的缩写,意思就是"异步模块定义"。它采用异步方式加载模块,模块的加载不影响它后面语句的运行。所有依赖这个模块的语句,都定义在一个回调函数中,等...

gtandsn
24分钟前
1
0
代码之外的生存指南,这6本书助你提升软实力

上期盟主向大家推荐了6本技术类书籍,引起了热烈反响。那么,工作之余,还有哪些好书能够为你打开更多的精彩世界呢?本期,多位知名企业的技术大咖将继续为您带来好书推荐,在新的一年里,为...

安卓绿色联盟
27分钟前
3
0
5分钟用Jitpack发布开源库

作者: 菜刀文 Demo:https://github.com/helen-x/JitPackReleaseDemo 项目开发中会用到很多开源库, 他们一般通过Maven/Gradle依赖进来的. 演而优则唱,开发越来越溜以后, 你是否也蠢蠢欲动,想发...

SuShine
32分钟前
2
0
状态码 301 与 302的区别

302重定向只是暂时的重定向,搜索引擎会抓取新的内容而保留旧的地址,因为服务器返回302,所以,搜索搜索引擎认为新的网址是暂时的。 而301重定向是永久的重定向,搜索引擎在抓取新的内容的同...

小草先森
38分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部