文档章节

大数据时代 别以为自己真的懂 Big Data

灵玖lingjoin
 灵玖lingjoin
发布于 2015/01/22 15:59
字数 1328
阅读 4
收藏 0
点赞 0
评论 0

最近「大数据( Big Data )」严然变成流行字,感谢科技界的搜索引擎、智能电话、社交媒体等等,由于我们的生活越来越离不开网络,智能手机、平板、电脑……每日透过各项产品连接互联网并使用的资料越来越庞大,形成新的话题。曾经是科技界的新宠儿,现在变成商业界的奇货。谁能掌握在手,谁就能获得更大的商机。


你真的懂得大数据吗?


仔细想想,你真的懂得大数据吗?笔者发现很多人其实都是道听涂说,一知半解。最近 RADICA DATA LAB 早前进行「大数据市场应用调查」,表示教育水平更高者更熟悉大数据。


大数据其实并不是甚么新奇奥秘的玩意,说穿了它就只是 Found Data ,将零散杂乱的各种数据统合分析,从而演算出某些结论、推测以及反应。昔日的数据库是被动的,它要求使用者逐一回馈,像是填写各项问卷、蒐集技术样本等等。


「最可能的答案」而非「最正确的答案」


不论是收集过程、数量以及分析数据都需要花费大量时间,而且往往是针对一些特定主题及目的,数据亦不够全面。然而由于现在电脑及手机的普及,以及网络通讯的流行,实现新的数据收集方式:将大量「数位化资讯」进行演算分析从而「数据化」。即使是普通人也会听闻及发现,为什么手机会知道自己的喜好,搜索时都是将自己常去的网站搬前,显示的广告都是自己有兴趣的,这就是大众所感知到的「大数据」如何影响自己。


大数据有别过去收集数据的方式,它不需要刻版而特定的数据,纵使再零碎不全,都一律交由电脑收集及识别。大众日常于网络上做的每一步活动,都有纪录下来,让有关方面可以因应需要分析用家个人喜好、居住地区、考虑条件、特定浏览时间等等提供「最可能的答案」,而非「最正确的答案」。


大数据重视关连


大数据是违反科学的:科学讲求精确,它却讲求模煳。科学讲求因果,它只重视关连。科学只纪录有用的数据,它却是所有数据都有价值。早于 20 世纪 20 年代 B.Russell 就提出过有关的论文,及后 1965 年 L.A.zadeh 发表模煳集合理论,正式奠定基础。模煳理论实际上是模煳集合、模煳关系、模煳逻辑、模煳控制、模煳量测等理论的泛称。


过去人类尤其是西方科学重精确轻模煳,胡适亦曾撰文<差不多先生传>,崇尚西方学风的他们抨击讽刺中国人特有的「近似推理( Approximation reasoning )」:缺乏科学精神,凡事模棱两可,只要差不多就好。讽刺的是不出数十年,西方科技发展就要学习差不多先生,追求不明确与模煳概念。事实上,模煳理论应用最有效最广泛的领域就是模煳控制。模煳控制出人意料的解决了传统西方理论逻辑无法解决或难以解决的疑难,并取得了一些惊人的成效:大数据就是其中的表表者。


大数据未必百分百正确,但又合乎一般人理解的范围


例如「青年」这个概念,它的内涵大家都清楚明白,但是什么样的年龄阶段内的人是青年,恐怕大家莫衷一是,因为在「青年」这个概念中没有一个清晰确定的边界与外延,这就是模煳概念。人们在认识模煳性时往往带有主观性,每个人对模煳事物的认知不可能完全相同。我们询问一千人他们认知中「年青」的年龄范围,那么我们可能得到一千个不同的答案。尽管如此,当我们用模煳统计的方法对海量数据进行分析时,答案又具有一定的规律性。


大数据就是以相近的塬理运作,假设我们要求电脑在甲城市报告「低收入青年的数量」,这里所说的「低收入」、「青年」都是模煳概念,过去的统计学要先求出「何谓低收入」「何谓青年」的「精确范围」然后才能进行下一步的统计:你要先告诉电脑某个薪金以下是低收入,哪个年龄阶层是青年,然后在资料库指定栏位找符合的条目。然而在大数据时代下,电脑能通过模煳概念去分析判断,演算法会自己跑自己分析「低收入」及「青年」大概的范围,将相关的数据条列出来。它未必百分百正确,但又合乎一般人理解的范围。

 



© 著作权归作者所有

共有 人打赏支持
灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
相比于传统 BI,基于 Hadoop 的大数据(Big Data)战略有何不同?

作者:miao君 链接:https://www.zhihu.com/question/20357162/answer/142407798 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 可以参考这个问题的回答...

chenhao_asd
04/23
0
0
大数据面试题,99%会机率碰到的海量题

三月已过去5天了,现在全国各省正处于招聘的高峰期,面试者也越来越紧张,都希望有高人指点一二,倘若有面试题能提示一下,那面试能拿到offer的机会便大的多,下面就是一些常见的大数据面试题...

mkkm1314
04/10
0
0
互联网学院大数据开发专业欢迎加入

大数据: 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和...

mcy0425
04/25
0
0
“SYSU空间大数据分析”微信公众号开通啦!

我们来自于中山大学(SYSU)地理科学与规划学院985-GIS实验室的一个不起眼也没啥梦想的大数据小团队。 我们只关心多源地理空间数据和GIS的应用,高分遥感影像数据和空间大数据挖掘是我们的最爱...

尧大大
2017/01/08
0
0
专访唐亘:计算机编程和数学建模缺一不可

点击图片购书 参与文末话题讨论,每日赠送异步图书 ——异步小编 异步社区:可以介绍一下自己吗?目前正在做哪些事情? 唐亘:大家好,我叫唐亘,是《精通数据科学:从线性回归到深度学习》一...

异步社区
06/03
0
0
大数据培训后怎么写简历才能吸引面试官的眼球

经过前两年大数据概念普及,2018年大数据培训进入了最为火爆的时期,通过大数据培训毕业后的学生就会进入求职阶段。如何写一份让面试官眼前一亮的简历就非常重要了。加米谷大数据培训机构根据...

加米谷大数据
05/10
0
0
Martin Fowler对于nosql的看法

The rise of NoSQL databases marks the end of the era of relational database dominance NoSQL数据库的崛起标志这个关系型数据库统治时代的终结。 But NoSQL databases will not become ......

PaperHY
2014/03/18
0
0
从术语到Spark,10篇必读大数据学习资源

     大数据文摘作品   编译:王一丁、王梦泽、夏雅薇   本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”...

大数据文摘
04/29
0
0
大数据究竟是怎么出现的,又代表着什么意思呢?

  你可能有注意到,大数据在我们的生活里已经掀起滔天巨浪,继云端运算之后,俨然成为学术界跟科技业中最热门的潮字,似乎每家公司都在进行有关的研究,三句不离大数据。究竟大数据是怎么出...

大数据头条
01/02
0
0
2018阿里研发效能嘉年华—向代码致敬有感

先行者 今天很荣幸看到了大佬的直播,感觉收获了很多,自己也有所感触,遂写下了这篇日记作为快照。 作为一名码农真的是很有感触,从参加工作那几年就听说云计算大数据的时代,那时候感觉只是...

笨小孩啊
05/29
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

【面试题】盲人坐飞机

有100位乘客乘坐飞机,其中有一位是盲人,每位乘客都按自己的座位号就坐。由于盲人看不见自己的座位号,所以他可能会坐错位置,而自己的座位被占的乘客会随便找个座位就坐。问所有乘客都坐对...

garkey
今天
0
0
谈谈神秘的ES6——(二)ES6的变量

谈谈神秘的ES6——(二)ES6的变量 我们在《零基础入门JavaScript》的时候就说过,在ES5里,变量是有弊端的,我们先来回顾一下。 首先,在ES5中,我们所有的变量都是通过关键字var来定义的。...

JandenMa
今天
1
0
arts-week1

Algorithm 594. Longest Harmonious Subsequence - LeetCode 274. H-Index - LeetCode 219. Contains Duplicate II - LeetCode 217. Contains Duplicate - LeetCode 438. Find All Anagrams ......

yysue
今天
0
0
NNS拍卖合约

前言 关于NNS的介绍,这里就不多做描述,相关的信息可以查看NNS的白皮书http://doc.neons.name/zh_CN/latest/nns_background.html。 首先nns中使用的竞价货币是sgas,关于sgas介绍可以戳htt...

红烧飞鱼
今天
1
0
Java IO类库之管道流PipeInputStream与PipeOutputStream

一、java管道流介绍 在java多线程通信中管道通信是一种重要的通信方式,在java中我们通过配套使用管道输出流PipedOutputStream和管道输入流PipedInputStream完成线程间通信。多线程管道通信的...

老韭菜
今天
0
0
用Python绘制红楼梦词云图,竟然发现了这个!

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小...

猫咪编程
今天
1
0
Java中 发出请求获取别人的数据(阿里云 查询IP归属地)

1.效果 调用阿里云的接口 去定位IP地址 2. 代码 /** * 1. Java中远程调用方法 * http://localhost:8080/mavenssm20180519/invokingUrl.action * @Title: invokingUrl * @Description: * @ret......

Lucky_Me
今天
1
0
protobuf学习笔记

相关文档 Protocol buffers(protobuf)入门简介及性能分析 Protobuf学习 - 入门

OSC_fly
昨天
0
0
Mybaties入门介绍

Mybaties和Hibernate是我们在Java开发中应用的比较多的两个ORM框架。当然,目前Mybaties正在慢慢取代Hibernate,这是因为相比较Hibernate而言Mybaties性能更好,响应更快,更加灵活。我们在开...

王子城
昨天
2
0
编程学习笔记之python深入之装饰器案例及说明文档[图]

编程学习笔记之python深入之装饰器案例及说明文档[图] 装饰器即在不对一个函数体进行任何修改,以及不改变整体的原本意思的情况下,增加函数功能的新函数,因为这个新函数对旧函数进行了装饰...

原创小博客
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部