文档章节

我为什么反对大数据

-wangming-
 -wangming-
发布于 2016/04/12 22:12
字数 3044
阅读 30
收藏 0
点赞 1
评论 0

嘉宾介绍:朱林,一个开发了17年程序的老程序员,热爱开发,有11年的安全开发经验,现任赛克蓝德公司技术总监,从事数据分析领域相关产品的研发,公司现已开发一款日志分析产品(SeciLog)。

精彩观点

在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值

在中国,绝大多数的公司是没有太多数据的

一切不以解决业务为出发点的技术都是耍流氓

很多时候数据并没有我们想象的这么值钱,尤其是互联网上很容易采集到的数据

大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的

声明

个人言论,本文仅从另一个视角看待大数据,如不能理解请一笑而过,勿做无谓的拍砖,仅此而已。

引言

现在很多人都热衷于把大数据放在嘴边,但你要问一下什么是大数据,大数据和你有什么关系?估计很少人能说出个一二三来。

究其原因,一是因为大家对新技术有着很深的原始渴求,至少在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了。

一、什么是大数据

最早提出大数据时代到来的是麦肯锡,他说:

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

IBM 最早将大数据的特征归纳为4个“V”,即:

体量Volume,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)

多样Variety,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。

价值Value,价值密度低,商业价值高。

快速Velocity,处理速度快。这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

我为什么反对大数据

维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理

书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;

Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;

Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

书中提到大数据的核心是预测。有三个思路的转变:

不是随机样本,而是全量数据;

不是精确性,而是混杂型;

不是因果关系,而是相关关系。

二、现状分析

根据国家统计局2014年12月16日发布的《第三次全国经济普查主要数据公报》中显示:

全国共有从事第二产业和第三产业活动的法人单位1085.7万个,占全部企业法人单位95.6%。从业人员35602.3万人,平均每个单位32.8人。

这个数据说明了中国绝大多数的企业都是中小企业,在这种情况下,有多少企业有海量数据呢?

我们换个角度再看看以下数据,我们搜索一下国内几个典型客户的网站排名情况(查询网站是alexa)。

用友:

我为什么反对大数据

东软:

我为什么反对大数据

绿盟:

我为什么反对大数据

从中可以看出用友的PV最大,也就是一天75000个,一年的数据量也就是2300万,在加上别的数据,数据的量级也就是G级别的,还远未到T级,更别说P级了。

在这个量级上,一台好点的 PC Server 就可以处理完成大部分的需求,如果考虑到可靠性最多需要两台。

通过上面的分析,我们可以发现在中国,绝大多数的公司是没有太多数据的。

三、大数据的核心价值

我为什么反对大数据

《大数据时代》中提到的大数据的核心价值是预测,但我们提到大数据时,往往提到的都是大数据技术,比如Hadoop、Spark、Storm、Hbase、Hive等等,人们对此的讨论总是乐此不彼。

但现实的情况往往是数据只能验证现在,数据无法预见未来!

举个最近的例子:

大数据告诉我们股市暴跌后必然有反弹。于是6.25大跌后,大家都认为周五必然有一个反弹。结果周五就被庄家们狠狠的教育了一把。

6.28的双降(降息,降准),所有都说周一6.29会上涨,可周一中国的庄家让散户们明白,数据和经验只是你的一厢情愿,他不会给你一丝的喘息机会。

一切不以解决业务为出发点的技术都是耍流氓,计算机技术的发展是非常迅速的,往往一个技术可能没有多长时间就会被淘汰或者升级。

如果没有业务场景作为支持,存粹的学习大数据的技术是没有太大价值的,笔者崇尚的是学以致用。

因为大脑有个很明显的特征是健忘,如果用不到,学这些技术过一段时间就会忘记,还不如暂时不学,等后面需要用到的时候在学(原理基础知识等除外)。

四、数据真的值钱吗

很多时候数据并没有我们想象的这么值钱,尤其是互联网上很容易采集到的数据,比如:爬虫这个东西。

我一开始不是太懂,但是花点时间,基本上通了,无论是用Python自己写一个,还是直接用现成的各种软件,都是很快就可以部署并开始采集。

中国有大量的程序员,还有的稍微懂点编程的计算机爱好者,另外爬虫软件的出现可以让一个新手随便花点时间就可以学会采集。所以采集的门槛在降低。

另外,数据的可复制性导致其廉价,尤其是非结构性的数据,从现在互联网上大量的转载文章就可以看出知识的传播复制是非常廉价的。

数据的利用才是有价值的。比如:

一个老板,他每天看几十个零散数据放到他面前,但是却没有把行为数据和商业数据的关系告诉他,有什么用呢?

一个公司CEO,每天看到几十个数据,什么PV、PU、UV等等是没有意义的。

对于他们来说,只需要知道有问题吗?问题是什么?有新的发现吗?需要做什么?这就行了。

五、大数据的泡沫

我为什么反对大数据

伯克利的Jordan教授给出了答案,他是机器学习世界范围内最被尊敬的专家之一(下面的翻译来自知乎上的作者Quinn Sure)。

目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程都没学好就开始造桥,结果只能造出“豆腐渣工程”。

一大波“false positive”(假阳性)正在接近,因为数据增长的速度不够支撑我们把大数据到处乱用的欲望。作为一个科学,不够严谨(原文是“没有error bar”)。

不像造桥的土木工程,经过多年的积累,明确地能告诉我们什么样的情况可以造,什么不可以。而大数据没有。

目前在computer vision领域进展还很小,只能在非常有限的范围内识别,比如人脸识别这样非常具体的引用(虽然这个不是直接说大数据,但是可以看出,作者认为真正做到万物都sensor还很远,大数据的采集能力终究还是有限的)

neural network根本和人脑的neural network不是一回儿事,我们对大脑的理解根本没到可以引用到计算机科学的程度。

现在deep learning所采用的back propagation技巧,明显不是大脑的运作方式,network的结构都完全不同,什么对数据的模糊性处理已经达到人脑的境界云云,主要是媒体扯谈。

对他观点的总结:

有些媒体为了让公众容易理解,打了些比方,但是这种比方造成了太多误解,进而造成了太多hype(夸张的大肆宣传)。

大数据还是一个没有足够严谨程度的科学,可能有一定的概率做出一些有用的预测,但是使用不当,过分过早地依赖,则会造成灾难性的后果。

很多时候大家过早对一个技术爆发热情,寄希望它可以改变世界,如果短时间没有成果,有可能热情一下子转冷又觉得这是个错误,加速抽离给这个技术的资源。

显然Michael很担心现在公众对这个技术的热情,并不是基于对这个技术的理解,从而有可能会经历这样的态度转变。但是他认为这个领域是现实存在的,很多重要的应用,假以时日,是会创造价值的。但是现在很多媒体宣传,甚至投资行为,都是泡沫。

六、从小数据开始

那怎么做的呢?

从小数据开始,小数据就是个体化的数据,是我们每个个体或组织的数字化信息。

比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼。

这就是我生活中的“小数据”,它不比大数据那样浩瀚繁杂,却对我自己至关重要。

现在很多企业面临的最大问题不是怎么用大数据,而是小数据都没用好的情况下怎么用大数据。

大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的。

首先,要了解自己的企业,自己所在的行业的核心是什么。有很多企业在竞争的过程中,最终不是被现在的竞争对手打败,而是被很多不是你的竞争对手所打败。

很简单的一个例子,大家都认为亚马逊是做电商的,但这是错的,它现在最主要的收入来自于云服务。

所以要找到企业的核心数据,这个是最关键的。只有在这个基础上,利用分析好这些数据,然后在做一些延伸。

其次,再找与内部相关的一些数据,去慢慢地成长它。有点像滚雪球,第一层是核心,第二层是外围相关的数据。第三层是外部机构的一些结构化数据。第四层是社会化的,以及各种现在所谓的非结构化的数据。

这几层要一层一层地找到它,而且要找到与自己相关的有价值的东西。这样你的数据才能利用起来。

本文转载自:http://toutiao.com/a6266982650423968001/?tt_from=mobile_qq&utm_campaign=client_share&app=news_art...

共有 人打赏支持
-wangming-
粉丝 33
博文 78
码字总数 89622
作品 0
上海
后端工程师
三生三世,十里挑花‘’大数据爱我你够了吗?

现在大数据发展越来越火,趋势日益红遍半边天。 就像现在很受广大青年热爱的手机游戏‘’王者荣耀‘’,‘’绝地求生‘’等游戏,但是大家都知道,游戏往往都是盛极一时,到后来石沉大海。。...

大数据琳达
04/26
0
0
[经验谈]22)BI的囚徒困境

BI的囚徒困境 https://mp.weixin.qq.com/s/SxYGt2gje_lTHOYZ6nj0Aw 写过一篇《为什么传统BI分析专题很难成功》,谈到了很多传统企业BI分析专题项目失败的原因,自己再看一遍时,却觉得自己当...

葡萄喃喃呓语
2017/10/22
0
0
对话清华经管朱恒源:中国智造不是弯道超车,是产业跃迁

     大数据文摘作品   记者:魏子敏   “中国的制造业正在经历的变革不是【弯道超车】,是【产业跃迁】。”   清华大学经济管理学院创新创业与战略系副主任、清华大学全球产业4.5...

大数据文摘
04/22
0
0
大数据时代:大数据技术意义何在?

大数据到底是什么?我们为什么需要大数据技术? 从本质上来说,大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义,大数据就是一个大型的数据仓库,一般有一个能支持业务决策的业务重点。但是...

bingdata123
04/16
0
0
从术语到Spark,10篇必读大数据学习资源

     大数据文摘作品   编译:王一丁、王梦泽、夏雅薇   本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”...

大数据文摘
04/29
0
0
大数据hadoop是什么?初学者如何进行系统学习?

大数据的火爆程度在不断的增加,似乎一个行业不和大数据相对接就会显得很“LOW”。大数据行业的薪资水平越来越高,决定了更多的人纷纷学习大数据,hadoop作为大数据的一个核心自然就是学习的...

hainiubuluo
05/25
0
0
凤凰金融大数据 VP 邢志峰:数据驱动凤凰金融业务创新

作者 | 邢志峰,凤凰金融大数据副总裁 来源 | GrowingIO 2017 增长大会 大家好,我是邢志峰,现任凤凰金融大数据副总裁。今天跟大家交流一下大数据在凤凰金融实践的一些成果,以及大数据如何...

张溪梦 Simon
2017/11/30
0
0
转行数据分析,请做好这五点(老学员分享)

亲爱的各位加米谷学院的老师和同学们好,首先非常感谢大家在17年9月到18年3月份5个月时间的陪伴,以及张老师和曾老师在我学习期间的耐心辅导。在大数据培训的道路上,正是因为有你们的辛勤付...

加米谷大数据
05/02
0
0
为什么有那么多人进行大数据培训?看完这些你就懂了

近几年,大数据这个词突然变得很火,国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿。而这之前,国内的所有高校中都没有设立大数据相关的课程,这也是为什么...

加米谷大数据
05/08
0
0
数据拯救单身狗!助攻两性相处的6个小数据

感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖...

天善智能
05/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

@Qualifier指定注入的bean

有这样一种情况,当你创建多个具有相同类型的 bean 时,并且想要用一个属性只为它们其中的一个进行装配,在这种情况下,你可以使用 @Qualifier 注释和 @Autowired 注释通过指定哪一个真正的 ...

少年已不再年少
7分钟前
0
0
gcviewer的使用

1、没有安装git软件 在编译打包GCViewer的过程中,不能执行git命令,错误信息如下: [ERROR] Failed to execute goal org.codehaus.mojo:buildnumber-maven-plugin:1.4:create (create-build...

刀锋
19分钟前
1
0
Android LogUtil 日志优化 调试的时候打印 点击跳转

打印日志的时候,可以点击跳转 LogUtil.java public class LogUtil { private static boolean IS_DEBUG = BuildConfig.DEBUG; public static void i(String tag, String message) {......

Jay_kyzg
29分钟前
0
0
人工智能你必须掌握的32个算法(二)归并排序算法

归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子...

木头释然
32分钟前
0
0
第十四章NFS服务搭建与配置

14.1 NFS介绍 NFS介绍 NFS是Network File System的缩写;这个文件系统是基于网路层面,通过网络层面实现数据同步 NFS最早由Sun公司开发,分2,3,4三个版本,2和3由Sun起草开发,4.0开始Netap...

Linux学习笔记
55分钟前
1
0
流利阅读笔记27-20180716待学习

生了娃照样能打,两位母亲温网会师 Lala 2018-07-16 1.今日导读 现今在生儿育女后回归事业的母亲们已经非常多见,但是很少有人想到,以高强度运动与竞争激烈为特色的竞技体育项目也会有 work...

aibinxiao
55分钟前
6
0
Guava 源码分析(Cache 原理【二阶段】)

前言 在上文「Guava 源码分析(Cache 原理)」中分析了 Guava Cache 的相关原理。 文末提到了回收机制、移除时间通知等内容,许多朋友也挺感兴趣,这次就这两个内容再来分析分析。 在开始之前...

crossoverJie
今天
0
0
OSChina 周一乱弹 —— 如果是你喜欢的女同学找你借钱

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @guanglun :分享Michael Learns To Rock的单曲《Fairy Tale》 《Fairy Tale》- Michael Learns To Rock 手机党少年们想听歌,请使劲儿戳(这...

小小编辑
今天
948
20
NNS域名系统之域名竞拍

0x00 前言 其实在官方文档中已经对域名竞拍的过程有详细的描述,感兴趣的可以移步http://doc.neons.name/zh_CN/latest/nns_protocol.html#id30 此处查阅。 我这里主要对轻钱包开发中会用到的...

暖冰
今天
0
0
32.filter表案例 nat表应用 (iptables)

10.15 iptables filter表案例 10.16/10.17/10.18 iptables nat表应用 10.15 iptables filter表案例: ~1. 写一个具体的iptables小案例,需求是把80端口、22端口、21 端口放行。但是,22端口我...

王鑫linux
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部