文档章节

大数据时代 别以为自己真的懂 Big Data

灵玖lingjoin
 灵玖lingjoin
发布于 2015/01/22 15:59
字数 1328
阅读 4
收藏 0

最近「大数据( Big Data )」严然变成流行字,感谢科技界的搜索引擎、智能电话、社交媒体等等,由于我们的生活越来越离不开网络,智能手机、平板、电脑……每日透过各项产品连接互联网并使用的资料越来越庞大,形成新的话题。曾经是科技界的新宠儿,现在变成商业界的奇货。谁能掌握在手,谁就能获得更大的商机。


你真的懂得大数据吗?


仔细想想,你真的懂得大数据吗?笔者发现很多人其实都是道听涂说,一知半解。最近 RADICA DATA LAB 早前进行「大数据市场应用调查」,表示教育水平更高者更熟悉大数据。


大数据其实并不是甚么新奇奥秘的玩意,说穿了它就只是 Found Data ,将零散杂乱的各种数据统合分析,从而演算出某些结论、推测以及反应。昔日的数据库是被动的,它要求使用者逐一回馈,像是填写各项问卷、蒐集技术样本等等。


「最可能的答案」而非「最正确的答案」


不论是收集过程、数量以及分析数据都需要花费大量时间,而且往往是针对一些特定主题及目的,数据亦不够全面。然而由于现在电脑及手机的普及,以及网络通讯的流行,实现新的数据收集方式:将大量「数位化资讯」进行演算分析从而「数据化」。即使是普通人也会听闻及发现,为什么手机会知道自己的喜好,搜索时都是将自己常去的网站搬前,显示的广告都是自己有兴趣的,这就是大众所感知到的「大数据」如何影响自己。


大数据有别过去收集数据的方式,它不需要刻版而特定的数据,纵使再零碎不全,都一律交由电脑收集及识别。大众日常于网络上做的每一步活动,都有纪录下来,让有关方面可以因应需要分析用家个人喜好、居住地区、考虑条件、特定浏览时间等等提供「最可能的答案」,而非「最正确的答案」。


大数据重视关连


大数据是违反科学的:科学讲求精确,它却讲求模煳。科学讲求因果,它只重视关连。科学只纪录有用的数据,它却是所有数据都有价值。早于 20 世纪 20 年代 B.Russell 就提出过有关的论文,及后 1965 年 L.A.zadeh 发表模煳集合理论,正式奠定基础。模煳理论实际上是模煳集合、模煳关系、模煳逻辑、模煳控制、模煳量测等理论的泛称。


过去人类尤其是西方科学重精确轻模煳,胡适亦曾撰文<差不多先生传>,崇尚西方学风的他们抨击讽刺中国人特有的「近似推理( Approximation reasoning )」:缺乏科学精神,凡事模棱两可,只要差不多就好。讽刺的是不出数十年,西方科技发展就要学习差不多先生,追求不明确与模煳概念。事实上,模煳理论应用最有效最广泛的领域就是模煳控制。模煳控制出人意料的解决了传统西方理论逻辑无法解决或难以解决的疑难,并取得了一些惊人的成效:大数据就是其中的表表者。


大数据未必百分百正确,但又合乎一般人理解的范围


例如「青年」这个概念,它的内涵大家都清楚明白,但是什么样的年龄阶段内的人是青年,恐怕大家莫衷一是,因为在「青年」这个概念中没有一个清晰确定的边界与外延,这就是模煳概念。人们在认识模煳性时往往带有主观性,每个人对模煳事物的认知不可能完全相同。我们询问一千人他们认知中「年青」的年龄范围,那么我们可能得到一千个不同的答案。尽管如此,当我们用模煳统计的方法对海量数据进行分析时,答案又具有一定的规律性。


大数据就是以相近的塬理运作,假设我们要求电脑在甲城市报告「低收入青年的数量」,这里所说的「低收入」、「青年」都是模煳概念,过去的统计学要先求出「何谓低收入」「何谓青年」的「精确范围」然后才能进行下一步的统计:你要先告诉电脑某个薪金以下是低收入,哪个年龄阶层是青年,然后在资料库指定栏位找符合的条目。然而在大数据时代下,电脑能通过模煳概念去分析判断,演算法会自己跑自己分析「低收入」及「青年」大概的范围,将相关的数据条列出来。它未必百分百正确,但又合乎一般人理解的范围。

 



© 著作权归作者所有

共有 人打赏支持
灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
鸟窝大数据,帮您找客户精准推广信息!

  大数据(big data)是一种大规模的数据集合,在营销推广中最重要的应用特征是数据维度。通过数据沉淀,商家可以找到目标消费人群,让自己的商品出现在正好需要的消费者眼前。   鸟窝大数...

sdywl
08/28
0
0
相比于传统 BI,基于 Hadoop 的大数据(Big Data)战略有何不同?

作者:miao君 链接:https://www.zhihu.com/question/20357162/answer/142407798 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 可以参考这个问题的回答...

chenhao_asd
04/23
0
0
互联网学院大数据开发专业欢迎加入

大数据: 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和...

mcy0425
04/25
0
0
大数据分析师和大数据工程师职位,孰轻孰重(个人角度)

在互联网盛行的今天,能够预测未来需要依靠更多数据支持,从数据的趋势和分析中,就可以把未来的发展动向掌握得淋漓尽致。在大数据背景之下,精通大数据的专业人才将成为企业最重要的业务角色...

风火9527
08/11
0
0
大数据面试题,99%会机率碰到的海量题

三月已过去5天了,现在全国各省正处于招聘的高峰期,面试者也越来越紧张,都希望有高人指点一二,倘若有面试题能提示一下,那面试能拿到offer的机会便大的多,下面就是一些常见的大数据面试题...

mkkm1314
04/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

5whys分析法在美团工程师中的实践

前言 网站的质量和稳定性对于用户和公司来说至关重要,但是在网站的快速发展过程中,由于各种原因导致事故不可避免的发生,这些大大小小的事故对公司难免会造成一些负面的影响,为了避免同类...

Skqing
21分钟前
0
0
Android 接收监听开机完成,并且开机自启动

1,定义一个广播接收者的类 ,并重写抽象方法 public class BootCompleteReceiver extends BroadcastReceiver 2,在Androidmanifest 注册 <receiver android:name=".receiver.BootCompleteRece......

lanyu96
24分钟前
1
0
小程序记录

1、button的边框、角等需要在伪元素after修改去除

originDu
26分钟前
0
0
微博什么技术啊……还说支持八个明星并发出轨,结果…

是的,大家可能都知道了,女神张靓颖结婚了。。 我去,写错了,是————赵丽颖。 为什么我头脑一瞬间出现的是张靓颖,作为一个码农,技术宅,拼音缩小都是 ZLY,博主我真有点傻傻分不清楚了...

Java技术栈
26分钟前
3
0
模块化

1,什么是模块化? 模块化是指将一个复杂的系统分解为多个模块,方便编码。 2,为什么要用模块化? 降低复杂性,降低代码耦合度,部署方便,提高效率。 3,模块化的好处? a,避免命名冲突,减少...

羊皮卷
27分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部