文档章节

欢迎加入hadoop当下情况与未来发展讨论(思数云bihadoop主办)

Soros丶
 Soros丶
发布于 2014/03/18 13:54
字数 806
阅读 14
收藏 0

为什无论Facebook、谷歌,还是IBM都在说大数据具有改变时间的力量,大数据来自移动设备、Web研究、公民科学项目或者传感器。无论是线上销售趋势,还是癌症研究,史上从来没有如此多的数据,覆盖如此广泛的领域,但是有科学家警告说,有关数据,大并一定最好。


  当数据来自不同的来源,往往会忽略背景,从而导致有问题的结论。其中,谷歌在2008年所发布的谷歌流感趋势分析( GFT )在近来流感水平测量中就遭遇很多困难,其研究小组在日前科学杂志政策论坛中表示,他们缺乏大数据工具缺乏,而它将极具潜力。


基于互联网海量数据分析Google流感趋势图


  基于谷歌搜索,谷歌设计了流感数据聚合对全球范围内流感相关活动进行检索匹配,从而对流感病例进行实时监控。尽管取得了一些成功,GFT还是高估过去两年内美国流感病例的峰值。根据休斯敦大学、东北大学的和哈佛大学的研究人员研究显示,在2012-2013季度感冒流行,以及2011-2012年流感实际水平,GFT都高估了,高估超过50%。此外,从2011年8月至2013年9月, GFT过高预测流感持续度超过100~108周。


  2013年2月号Natrue(大自然)杂志文章报道披露,与美国疾病控制和预防中心(CDC )的数据相比,GFT预测的流感样疾病医生访问量高出了两倍,而CDC的数据是基于调查美国一些实验室所作出评估报告。 (美国科学也是Natrue出版集团的一部分。 )


  据Natrue披露,谷歌软件“依赖于谷歌的搜索引擎相关流感术语搜索的数据挖掘,并结合计算机建模分析,”。尽管还在撰写本周科学“策略论坛”的若干实例,但GFT已经动摇。Natrue指出, GFT全身心的工作,随着时间的推移,其数据几乎完全匹配CDC的监测数,但GFT的速度会比CDC快上好几天。


  谷歌去年十月自己研究的结论是:其流感算法以及其最新推出的谷歌登革热(Dengue)流行趋势,在2012-2013年美国流感季节可以提高媒体的关注度。谷歌发言人表示:我们每年会探讨流感趋势模型,以确定如何改善——我们的最新的更像在2013年10月,用于预测2013-2014流感季节。“我们欢迎任何意见,我们如何能继续完善流感趋势,以帮助估计流感的水平。”他说。

15116995573

欢迎加入hadoop当下情况与未来发展讨论(思数云bihadoop主办)

报名网址:http://www.douban.com/event/21072086/

© 著作权归作者所有

Soros丶
粉丝 0
博文 9
码字总数 11120
作品 0
虹口
私信 提问
【技术分析】金融大数据人才奇缺[思数云转载]

互联网金融正在以每年3-5倍的速度在增长,未来5-10年内将继续高速发展,和大数据相关的人才缺口因此极大。 与此同时,各行各业都在朝大数据时代迈进,相关专业如统计学、金融学、计算机、数学...

尤失
2015/06/01
260
0
【技术分析】精选大数据相关用语[思数云转载]

大数据 (Big Data) 与数据科学 (Data Science)已成为大众耳熟能详的词汇,各行各业正在积极运用且开发大数据的价值,这些巨量数据也带来了巨大的商机。 这时身处于「大数据时代」的我们,自然...

尤失
2015/05/29
174
0
2017 大数据及云计算展8月在京开幕

由中国国际贸易促进委员会批准,中国国际展览中心集团公司、中国信息协会大数据分会、中关村大数据产业联盟、中国数据中心产业发展联盟联合主办,北京文行国际会展有限公司承办的“DT+Cloud ...

玄学酱
2018/03/20
0
0
比自建Hadoop便宜 云栖大会揭秘阿里云数加MaxCompute

DT时代,越来越多的企业应用数据步入云端。 Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。 阿里云数加MaxCompute (原名ODPS)是一种快速、完全托管的T...

大大大大风车
2017/09/21
1K
2
第一届对象存储技术及应用大会:Esri中国周宁——万物互联时代,云存储技术的变革与展望

目前,对象存储正在寻找除了云以外的应用案列,这使得对象存储更加广泛地为人们所接受。将于11月16日举办的“第一届对象存储技术及应用大会”活动即将围绕对象存储技术展开全面讨论。此前,让...

玄学酱
2018/05/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Netty整合Protobuffer

现在我们都知道,rpc的三要素:IO模型,线程模型,然后就是数据交互模型,即我们说的序列化和反序列化,现在我们来看一下压缩比率最大的二进制序列化方式——Protobuffer,而且该方式是可以跨...

算法之名
25分钟前
14
0
如何用C++实现栈

栈的定义 栈(stack)又名堆栈,它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压...

BWH_Steven
43分钟前
4
0
编程作业20190210900169

1编写一个程序,提示用户输入名和姓,然后以“名,姓”的格式打印出来。 #include <stdio.h>#include <stdlib.h> int main(){ char firstName[20]; char lastName[20]; print......

1李嘉焘1
55分钟前
12
0
补码的优点及原理分析

只讨论整数 1.计算机内部为什么没有减法器? 减法运算本身其实就是加法,如x - y即x +(-y),所以只需要将负数成功表示出来并可以参加加法运算,那加法器就可同时实现“+”和“-”的运算。这...

清自以敬
今天
76
0
Docker 可视化管理 portainer

官网安装指南: https://portainer.readthedocs.io/en/latest/deployment.html docker-compose.yml 位置,下载地址:https://downloads.portainer.io/docker-compose.yml...

Moks角木
今天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部