文档章节

大数据与科学:存在不可调和的矛盾吗?

 数据分析师
发布于 2015/04/14 18:53
字数 808
阅读 12
收藏 0
点赞 0
评论 0

引言:我们先看一个故事:话说太平洋上有个小岛,上面住了土著人,与世隔绝上千年,地处偏远,各国都对这个岛没有兴趣。直到二战时,美国发现这个岛是个非常好的中转站,就去建了个空军基地。每次飞机来了送给养,也给土著点东西比如午餐肉罐头什么的。后来战争结束了,美军关了基地离开了。后来,70年代有人去这个岛,发现土著人有个宗教,是在废弃的跑道两侧点燃两溜火把,然后祭拜,等待天神的到来。

不懂大数据,说下感觉,抛砖引玉,敬请批评。从学术界到商业届,从基因组到客户数据发掘,大数据已经流行好多年了,有少数一些成功案例,大多数就是产生一些似是而非的结论。

其实大数据非常危险,首先单个数据错误可能性非常大,虽然这对得出统计数据可能没影响,但对得出精确结论影响很大。更有很多高通量低质量的数据,对统计结果都有影响,最后可能garbage in garbage out。其次数据量大了,总能形成pattern,但这不一定是真正的规律或者机制性规律。无论数据量多大,你也不能保证你采集的数据都有用,还有缺失数据,你压根都没想到的。我认为还有一个重要问题,就是有多少问题是计算机可以解决的。比如,现代的超级计算机,就算联网,给它们输入所有产生量子力学之前物理学的实验结果,比如光电效应,原子光谱等等,它们能不能产生量子力学?如果不能,凭什么就认为大数据能解决复杂系统如生物的机理性问题?

商业上一些大数据结果的效用也非常可疑。打个比方,比如Amazon买东西,总会被推荐其他的产品,是其他人买了那个东西后也买或者看过的产品。反正我没碰到过几次推荐我喜欢的,现在直接略过。当然这是小数据。但就算有一天大数据数据分析软件了,每个人的需求在某个时刻还是不一样的。每个人的购物习惯也不一样,还有各种偶然性。比如我喜欢先选好各种商品,比如我自己用的相机镜头,还有国内亲戚让我带的折叠童车,完全无关,还就这一次,Amazon以后就给我推荐尿不湿了,婴儿玩具了。也许大多数人符合统计规律,但这最终还是统计意义上的模糊营销。

了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com

或扫一扫,关注“FineBI专业商业智能解决方案”(微信号:fine_bi)

        德国政府宣布生产智能:资助Jedox大数据项目 - IBFINER - 商业智能

© 著作权归作者所有

共有 人打赏支持
粉丝 29
博文 1645
码字总数 2338861
作品 0
邢台
[歪谈]运营和技术之间不可调和的“矛盾”

见过一个现象,堪称无法调和的矛盾。 多年前。 某个互联网小公司,整了一个挺有前景的电商网站,于是老板构建了一个团队,团队组成人员大致有以下几个部分: 1、一个技术负责人,外加三个代码...

shenyisyn
2014/08/04
0
0
知识产权的根本谬误

永恒的矛盾 一谈到知识产权就会关联到一个令人头痛的问题,盗版。盗版问题可以说是和知识产权纠缠在一起,从有知识产权定义的第一天起,盗版便如影随形,挥之不去。现在,它像毒汁一样侵蚀着...

btvnlue
2016/04/14
0
0
关于软件项目管理的心得体会之二

闲话 第二篇来的很迟, 因为自己反复写了几遍,总觉得写的有点照本宣科。毕竟项目管理是一门实践科学,而现实的项目又各有各的问题,想精炼的表达自己所悟, 又怕不得其法。以此抛砖引玉的说...

每天多一点
2015/06/28
0
1
推荐一本大数据的书籍,非技术类

因为关注大数据,也写过若干关于大数据的文章,做过若干关于大数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣。过去几年,在这方面读过十几本书,上百篇论文和文章。相对而言,舍恩伯...

八千里路
06/26
0
0
教育部最新:283所高校获批数据科学与大数据专业

     大数据文摘作品   我国高校开设大数据本科专业,今年已经是第三年了。   3月21日下午,历时近一年时间,教育部公布了2017年度普通高等学校本科专业备案和审批结果的最新通知,第...

大数据文摘
03/22
0
0
中国大数据发展呈现十大发展趋势

大数据战略重点实验室研究编著、社会科学文献出版社出版的《大数据蓝皮书:中国大数据发展报告No.1》(简称《大数据蓝皮书》)5月28日正式发布。作为全国首部《大数据蓝皮书》,从制度、技术...

玄学酱
03/28
0
0
【每日一摩斯】-RAC and Sequences (853652.1)

序列有四种组合: a. CACHE + NOORDER b. CACHE + ORDER c. NOCACHE + NOORDER d. NOCACHE + ORDER 即使在单例配置下,当有大量的sequence需要产生的时候,性能压力和存储sequence值的行锁定...

bisal
2013/08/27
0
0
教育部最新:283所高校获批数据科学与大数据专业(附完整名单+公益计划)

大数据文摘作品 我国高校开设大数据本科专业,今年已经是第三年了。 3月21日下午,历时近一年时间,教育部公布了2017年度普通高等学校本科专业备案和审批结果的最新通知,第三批大数据本科专...

数据汪
03/22
0
0
大数据学习发展:成都大数据产业调研小组莅临加米谷大数据调研

7月4日下午,成都市新经济委、成都市大数据产业调研小组莅临加米谷大数据调研指导,加米谷大数据创始人张安文、张衡积极配合大数据产业调研小组,进行关于“成都市大数据企业发展状况、存在问...

加米谷大数据
07/05
0
0
MQ如何解决消息的顺序问题和消息的重复问题

作者:CHEN川 链接:http://www.jianshu.com/p/453c6e7ff81c 來源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 一、摘要 分布式消息系统作为实现分布式系统...

阿笨net
03/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

win10 上安装解压版mysql

1.效果 2. 下载MySQL 压缩版 下载地址: https://downloads.mysql.com/archives/community/ 3. 配置 3.1 将下载的文件解压到合适的位置 我最终将myql文件 放在:D:\develop\mysql 最终放的位...

Lucky_Me
9分钟前
0
0
linux服务器修改mtu值优化cpu

一、jumbo frames 相关 1、什么是jumbo frames Jumbo frames 是指比标准Ethernet Frames长的frame,即比1518/1522 bit大的frames,Jumbo frame的大小是每个设备厂商规定的,不属于IEEE标准;...

问题终结者
24分钟前
0
0
expect脚本同步文件expect脚本指定host和要同步的文件 构建文件分发系统批量远程执行命令

expect脚本同步文件 在一台机器上把文件同步到多台机器上 自动同步文件 #!/usr/bin/expectset passwd "123456"spawn rsync -av root@192.168.133.132:/tmp/12.txt /tmp/expect {"yes...

lyy549745
24分钟前
0
0
36.rsync下 日志 screen

10.32/10.33 rsync通过服务同步 10.34 linux系统日志 10.35 screen工具 10.32/10.33 rsync通过服务同步: rsync还可以通过服务的方式同步。那需要开启一个服务,他的架构是cs架构,客户端服务...

王鑫linux
32分钟前
0
0
matplotlib 保存图片时的参数

简单绘图 import matplotlib.pyplot as pltplt.plot(range(10)) 保存为csv格式,放大后依然很清晰 plt.savefig('t1.svg') 普通保存放大后会有点模糊文件大小20多k plt.savefig('t5.p...

阿豪boy
37分钟前
0
0
java 8 复合Lambda 表达式

comparator 比较器复合 //排序Comparator.comparing(Apple::getWeight);List<Apple> list = Stream.of(new Apple(1, "a"), new Apple(2, "b"), new Apple(3, "c")) .collect(......

Canaan_
昨天
0
0
nginx负载均衡

一、nginx 负载均衡 拓扑图: 主机信息: 1、负载均衡器1(lb1):192.168.10.205 RHEL7.5 2、负载均衡器2(lb2):192.168.10.206 RHEL7.5 3、web服务器1(web01):192.168.10.207 Centos...

人在艹木中
昨天
0
0
做了一个小网站

做了一个小网站 www.kanxs123.com

叶落花开
昨天
0
0
继社会佩奇之后,又尝试了可爱的蓝胖子,有趣 Python

#哆啦A梦# !/usr/bin/env python3# -*- coding: utf-8 -*-# @Author: dong dong# @Env: python 3.6from turtle import *# 无轨迹跳跃def my_goto(x, y): penup(...

Py爱好
昨天
0
0
shell及python脚本方式登录服务器

一、问题 在工作过程中,经常会遇见需要登录服务器,并且因为安全的原因,需要使用交互的方式登录,而且shell、python在工作中也经常用到,并且可以提供交互的功能。都是利用了expect、spawn...

yangjianzhou
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部