文档章节

大数据与科学:存在不可调和的矛盾吗?

 数据分析师
发布于 2015/04/14 18:53
字数 808
阅读 12
收藏 0

引言:我们先看一个故事:话说太平洋上有个小岛,上面住了土著人,与世隔绝上千年,地处偏远,各国都对这个岛没有兴趣。直到二战时,美国发现这个岛是个非常好的中转站,就去建了个空军基地。每次飞机来了送给养,也给土著点东西比如午餐肉罐头什么的。后来战争结束了,美军关了基地离开了。后来,70年代有人去这个岛,发现土著人有个宗教,是在废弃的跑道两侧点燃两溜火把,然后祭拜,等待天神的到来。

不懂大数据,说下感觉,抛砖引玉,敬请批评。从学术界到商业届,从基因组到客户数据发掘,大数据已经流行好多年了,有少数一些成功案例,大多数就是产生一些似是而非的结论。

其实大数据非常危险,首先单个数据错误可能性非常大,虽然这对得出统计数据可能没影响,但对得出精确结论影响很大。更有很多高通量低质量的数据,对统计结果都有影响,最后可能garbage in garbage out。其次数据量大了,总能形成pattern,但这不一定是真正的规律或者机制性规律。无论数据量多大,你也不能保证你采集的数据都有用,还有缺失数据,你压根都没想到的。我认为还有一个重要问题,就是有多少问题是计算机可以解决的。比如,现代的超级计算机,就算联网,给它们输入所有产生量子力学之前物理学的实验结果,比如光电效应,原子光谱等等,它们能不能产生量子力学?如果不能,凭什么就认为大数据能解决复杂系统如生物的机理性问题?

商业上一些大数据结果的效用也非常可疑。打个比方,比如Amazon买东西,总会被推荐其他的产品,是其他人买了那个东西后也买或者看过的产品。反正我没碰到过几次推荐我喜欢的,现在直接略过。当然这是小数据。但就算有一天大数据数据分析软件了,每个人的需求在某个时刻还是不一样的。每个人的购物习惯也不一样,还有各种偶然性。比如我喜欢先选好各种商品,比如我自己用的相机镜头,还有国内亲戚让我带的折叠童车,完全无关,还就这一次,Amazon以后就给我推荐尿不湿了,婴儿玩具了。也许大多数人符合统计规律,但这最终还是统计意义上的模糊营销。

了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com

或扫一扫,关注“FineBI专业商业智能解决方案”(微信号:fine_bi)

        德国政府宣布生产智能:资助Jedox大数据项目 - IBFINER - 商业智能

© 著作权归作者所有

共有 人打赏支持
粉丝 30
博文 1645
码字总数 2338861
作品 0
邢台
私信 提问
[歪谈]运营和技术之间不可调和的“矛盾”

见过一个现象,堪称无法调和的矛盾。 多年前。 某个互联网小公司,整了一个挺有前景的电商网站,于是老板构建了一个团队,团队组成人员大致有以下几个部分: 1、一个技术负责人,外加三个代码...

shenyisyn
2014/08/04
0
0
宿命之战:程序员VS产品经理,可以拍成一部电影了...

来源:吓脑湿 产品经理のShow Time 开发のShow Time 罪状展示 臆想时间 第一回合:需求之战 第二回合:时间之战 第三回合:知识之战 第四回合:嘴炮之战 第五回合:数据之战 第六回合:引诱之...

陈序元
08/31
0
0
关于软件项目管理的心得体会之二

闲话 第二篇来的很迟, 因为自己反复写了几遍,总觉得写的有点照本宣科。毕竟项目管理是一门实践科学,而现实的项目又各有各的问题,想精炼的表达自己所悟, 又怕不得其法。以此抛砖引玉的说...

每天多一点
2015/06/28
0
1
知识产权的根本谬误

永恒的矛盾 一谈到知识产权就会关联到一个令人头痛的问题,盗版。盗版问题可以说是和知识产权纠缠在一起,从有知识产权定义的第一天起,盗版便如影随形,挥之不去。现在,它像毒汁一样侵蚀着...

btvnlue
2016/04/14
0
0
数据分析入门基础---统计学(笔记1,附学习资料)

文章仅为统计学基础知识的学习笔记,供快速查找。如果只需要电子书及视频学习资料,拉到文尾自行提取(无密码)。 第一章 变量和图形 统计学:科学方法收集、整理、汇总、描述和分析数据资料...

马小野
08/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

新技术不断涌现,下一代云计算的突破口在哪里?

这是一个IT技术飞速发展的时代,在硬件基础设施的不断升级以及虚拟化网络等技术的日益成熟下,云厂商也正面临着各种新技术带来的巨大挑战。从数据中心的基础建设到云平台的系统构建再到产品底...

UCloudTech
6分钟前
0
0
走进阿里云物联网

课程介绍: 阿里云IoT,致力于实现万物互联的美好世界,为生态合作伙伴提供基于云边端一体化、人工智能、安全的物联网基础平台和内容服务能力平台,通过该平台高效连接、管理设备的同时,开放...

mcy0425
14分钟前
0
0
Kylin2.5.0环境搭建及操作记录

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的H...

PeakFang-BOK
23分钟前
1
0
SpringBoot整合es

文档对像 @Document(indexName = "bigdata",type = "tag")public class User { @Idprivate String openid; private List<String> tags;public String getOpenid() ......

魔法王者安琪拉
27分钟前
1
0
windows下让 jar 在后台运行的办法

windows下 运行 java jar 不出现 命令行 窗口 新建一个披处理 run.bat,内容如下 @echo off start javaw -jar xx.jar exit 双击运行即可。...

glen_xu
36分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部