文档章节

两会好声音,中国大数据

灵玖lingjoin
 灵玖lingjoin
发布于 2014/03/14 16:06
字数 2890
阅读 7
收藏 0

大数据正在加速落地。中国政府出台大数据刺激计划只是时间早晚问题,企业家正在通过各种渠道去影响政府,希望其尽快承担起大数据开放和利用的牵头职责。


大数据从民到官,寻找新大陆


两会期间,与大数据相关的提案呈现出井喷之势。李彦宏在政协记者会上表示,政府应该把更多和人民生活有关的数据资料,公开的放到网络上;雷军则直接建议将大数据纳入国家战略,推动大数据切实地用起来;科大讯飞刘庆峰建议国家建设声纹数据库进行大数据反恐。张近东、马化腾、杨元庆的提案也与数据应用有着紧密联系。


大数据的重要性正在从科研理论群体转向政府决策部门,而中间的桥梁是企业。这种自下而上的推动与美国的大数据发展走的是截然不同的道路。最终仍将走到相同的目的地:政府即是大数据产业的规划指导者,也是实践者,殊途同归。


一方面,政府管理国家的过程中不断收集到海量数据并存档在案;而另一方面,政府又需要不断去统计、分析、预测这个国家的一些宏观情况,辅助决策。公安、媒体、金融、卫生、教育、贸易等行业都在不断积累数据,政府因为监管的需要又会对这些数据进行汇总。统计局,测绘局、气象局等部门则是直接在做数据的收集、分析或者利用。


政府掌握的海量数据如果能进行适度地开放,加载互联网便捷的查询能力和挖掘能力,将会释放出巨大的价值。一些原本未曾主动收集的数据,政府如果推动其收集,也将爆发巨大能力。马航失事便被一些人士认为是落后的数据同步技术,而声纹数据库如若建立则可以进行反恐,建立指纹数据库则可帮助打击儿童拐卖。


这些数据拥有巨大的社会、科研、民生和经济价值。


大数据成为新的调查方式,辅助决策


两会期间,中国政府的官方媒体CCTV在新闻报道中正在越来越多地利用大数据的研究成果,例如百度指数、百度新闻热搜榜。基于大数据的分析报告更加全局、客观和直观。数据是世界的真实映射。分析报告则反映了世界在空间和时间维度上的特性。大数据真正的优势是,它的数据收集、统计是自动化的,分析是智能化的挖掘。


新闻和大数据的关联,基于以下几个特性——实时性、海量样本、数据挖掘、真实表达等。因此大数据成为媒体报道热衷的新手段——快、准、新、真。百度积累的是表征人们需求的搜索数据,反映民意和国情;阿里掌握着交易数据和信用数据,甚至可以预知经济走向,金融危机前马云便可基于B2B交易数据的变化,提前预知,这便是阿里的大数据场景;腾讯擅长社交和关系数据。在新闻媒体上都有发挥空间。


在大数据的运用上,新闻媒体充当了先锋派,但大数据的价值绝不仅仅止于此。


大数据是调查的一种手段。两会代表问政建议(提案、议案),政府部门决策,都在越来越多地依托百度这样的大数据服务,从数据挖掘中获得科学决策的智力支持。


马化腾的“利用互联网技术推进食品安全监督”,如果能利用RFID射频技术等对食品从种植到成长到运输到销售整个流程进行数据收集,食品安全监督自然更容易。还可以定期基于大数据分析出不同地域、不同类型、不同品牌的食品安全问题,进行预警提醒。


基于空间和时间两个纬度统计空气质量变化,可以辅助环保部门进行空气治理规划。基于高中生专业意向的收集统计,则可以指导教育部门和高校进行更科学合理的招生计划。


互联网大数据谁先落地?


搜索引擎天生就在做数据生意。百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。百度是汇聚国情、民意的大数据的最大平台,包括搜索及点击行为、贴吧知道百科等UGC内容、基于位置服务(LBS)数据、收集到的海量第三方的网站数据,甚至包括微博)。它拥有一座需求和民意数据的金矿。


阿里更多的是电商和信用相关的数据,在经济、金融、贸易等相关领域的影响力不容小觑;腾讯的则是社交数据,由于封闭的特性使之数据量不可能贯穿整个(移动)互联网,但其数据在舆情监测、广告营销等方面仍十分具有价值。


整体而言,百度更容易落地大数据。数据优势主要有,


1.量大、面广:百度是中国流量排名第一的网站,在移动端拥有超过14个过亿的App。它们均会形成数据的积淀;数十万台服务器组成的爬虫集群每天不遗余力地到处去收集优质数据。阿拉丁计划则是鼓励站长主动将数据接入百度,移动端则是百度云,App通过百度云的LBS等服务为其贡献数据。海量的数据支撑着样本的有效性。


2.及时甚至超前:实时反馈,数据收集、回传、分析在物联网、4G技术和云计算的支持下,将会更加容易。相比之下,传统调研有时滞。而基于海量大数据的运算结果甚至可以可以预测未来,例如Google流感,百度迁徙,Twitter股市。


3.调研对象跟踪:一般调查只是一次或者几次,很难对一个样本进行持续跟踪。而百度大数据则可以对一个对象进行持续跟踪,进行不同时期纬度的分析。前提是不影响该对象的生活和隐私情况。


4、强大的数据技术:百度是中国最具技术基因的互联网巨头。百度在建立索引过程中需要去解析网页,去理解超链接,去分析原网页文本内容,在处理搜索时需尝试理解用户五花八门的输入请求。这些事情实际上锻炼了百度对非结构化的互联网数据的分析处理能力。而百度在硬件设施,例如集群机房等方面的布局也不含糊。


腾讯的大数据应用主要是用来改进产品,广点通算小试牛刀;阿里则是要做数据的分享交易集市,在搭建数据的流通、收集和分享的底层架构。十分远大的理想,还需假以时日。百度是研究与实践结合,除了百度指数、百度沸点、百度统计、百度迁徙等成功案例之外,李彦宏去年向政治局常委讲解大数据,对百度的大数据能力也是一种肯定。


互联网是冰山一角,大数据更多在BAT之外


央视数据新闻的应用取得成功,值得肯定。但大数据的价值远不止此,它可以支持媒体收集民意,反馈真实世界,它可以帮助BAT开拓新的业务和尝试新的研究。但数据更大的想象空间则是其与政府数据结合,与行业数据结合。大数据在BAT之外。


移动互联网,设备数量爆发式增长。而4G来临,移动互联网的网络瓶颈被突破之后,包括物联网、可穿戴设备、车联网、智能医疗、智能家居等在内的智能硬件产业行将爆发,这些设备将源源不断地产生、收集、回传数据到云端。目前爆发的大数据只能算“核弹”级别,真正的大数据爆发会是“氢弹”级别的规模。


在经济方面,移动支付确保了及时、细粒度和全面的交易数据收集,进而可以对经济进行更加准确、有说服力、有时效性的监测。这会影响什么呢?CPI、GDP统计可以细化到分钟,可以进行预警管控。各个行业的交易额、市场份额数据也可自动化统计,而不再是调研公司抽样完成,后者说服力不够。


在教育方面,互联网教育收集更丰富的教育数据。可以进行师资力量的调配,可以针对学习情况对课程进行改进优化,可以基于学生学习的跟踪进行教育研究。


在金融方面,有股市股价预测、存款波动监控、基于保险理赔的大数据分析推出新产品;在工业方面,可以根据市场消费、口碑的大数据了解不同地域、不同性别、不同人群的消费行为特征进行精准营销甚至反向定制。在通信方面,可以根据人群流动情况、话务情况的历史规律动态自动调配基站载波进行节能管理。


地方政府如果能积极开放数据,例如一些信息查询连接到App,则可以提高办事效率和群众满意度;如果能积极利用数据,基于交通大数据进行城市规划、道路规划、红绿灯规划缓解拥堵,基于流感趋势预测进行疾病预警控制,基于用户搜索情况了解本地民意、关注点、舆情等,这比一些官员微服私访收集民意效率更高。


在新闻报道上的大数据应用,是互联网表达民意的一大社会进步,这还远远不够,从“春节”到“两会”,大数据是“先锋派”的新闻界在用,一些大数据先行者例如百度发挥得还不算多,用它的也不多,大都是浅尝辄止。各个行业都应该多利用大数据帮助科学决策。


大数据在经济、社会、民生等领域都大有可为。它不再是云里雾里,不再是纸上谈兵,不再是巨头的游戏,而是落到实处,不断圈入新玩家,探索新模式,创造新价值。虽然大数据在各行各业都存在且具备应用价值,但技术+数据驱动的互联网行业才是排头兵。



© 著作权归作者所有

灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
私信 提问
HBase条件查询(多条件查询)

Author:Pirate Leo myBlog: http://blog.csdn.net/pirateleo/ myEmail: codeevoship@gmail.com 转载请注明出处,谢谢。 文中可能涉及到的API: Hadoop/HDFS:http://hadoop.apache.org/commo......

Zero零_度
2015/11/05
0
0
hbase rowkey设计

1 概述 HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。 既然HBase是采用KeyValue的列...

张欢19933
2016/03/28
115
0
谷歌 2012 年终总结:这一年你又好奇着什么?

2012似乎悄悄的来了,亦似乎要悄悄的走过。每一年年底谷歌都会发布年终总结,今年也不例外,在Zeitgeist上深度总结这一年的种种,你也可以点击这里查看2012年度完整的PDF。 在网站上列出了5...

oschina
2012/12/13
4K
18
杭州现“一个人的法庭” 人工智能完全取代书记员

  近日,在杭州西湖区的人民法院上,通过使用人工智能书记员,完成了一场原告在家中,被告在1200多千米开外的律师事务所,靠智能系统在线面对面的庭审。      这场“一个人的法庭”,审...

人工智能和大数据
2018/04/25
0
0
人工智能再受关注,央企已成国家科技创新主力军

在十三届全国人大一次会议上,人工智能再一次出现在政府工作报告中:做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进「...

南电1992
2018/04/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

AOP的学习(1)

AOP 理解AOP编程思想(面向方法、面向切面) spring AOP的概念 方面 -- 功能 目标 -- 原有方法 通知 -- 对原有方法增强的方法 连接点 -- 可以用来连接通知的地方(方法) 切入点 -- 将用来插入...

太猪-YJ
30分钟前
2
0
一张图看懂亮度、明度、光度、光亮度、明亮度

亮度、明度、光亮度,Luminance和Brightness、lightness其实都是一个意思,只是起名字太难了。 提出一个颜色模型后,由于明度的取值与别人的不同,为了表示区别所以就另想一个词而已。 因此在...

linsk1998
昨天
4
0
Python应用:python链表示例

前言 python链表应用源码示例,需要用到python os模块方法、函数和类的应用。 首先,先简单的来了解下什么是链表?链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是...

python小白1
昨天
3
0
Source Insight加载源码

Source Insight是一个图形化的源代码查看工具(当然也可以作为编译工具)。如果一个项目的源代码较多,此工具可以很方便地查找到源代码自建的依赖关系。 1.创建工程 下图为Snort源代码的文件...

天王盖地虎626
昨天
3
0
nginx-rtmp-module的缺陷分析(二)

nginx-rtmp-module使用指令push和pull来relay媒体流数据,以便分布式部署服务。 当nginx-rtmp-module作为边缘服务器(一般不会向边缘服务器推流)时,使用pull从源服务器获取媒体流数据,俗称...

YoungSagit
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部