文档章节

大数据明天的路该怎么走?

 数据分析师
发布于 2014/11/22 19:25
字数 4121
阅读 15
收藏 0
点赞 0
评论 0

 

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

 

提到存储,有一个着名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

 

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

 

Amazon举例,Amazon S3是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3提供一个简明的Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。

 

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

 

感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

 

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。

 

除此之外,还有很多与感知相关的大数据技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。

 

其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

 

大数据的实践

互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

 

互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

 

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,走向大数据应用挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

 

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

 

在信息技术更为发达的美国,除了行业知名的类似GoogleFacebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:

 

Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

 

ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

 

QlikTechQlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

 

GoodDataGoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

TellApartTellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

DataSiftDataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

 

Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。

举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:

 

1-用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

2-用户消费数据(精准营销、信用记录分析、活动促销、理财等)

3-用户地理位置数据(O2O推广,商家推荐,交友推荐等)

4-互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

5-用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

 

政府的大数据

近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

 

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

 

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

 

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054datasets349citizen-developedapps137 mobile apps175agencies and subagencies87 galleries295 Government APIs

 

企业的大数据

企业的CXO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

 

那么,哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1) 对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

 

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

 

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

 

然而,一直做企业服务的巨头将优势不在,不得不眼看新兴互联网企业加入战局,开启残酷竞争模式。为何会出现这种局面?从 IT 产业的发展来看,第一代 IT 巨头大多是 ToB 的,比如 IBMMicrosoftOracleSAPHP这类传统 IT 企业;第二代 IT 巨头大多是ToC的,比如 YahooGoogleAmazonFacebook 这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBMOracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术,大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

 

IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(InformationIntegration and Governance)。

© 著作权归作者所有

共有 人打赏支持
粉丝 29
博文 1645
码字总数 2338861
作品 0
邢台
只有明确目标和方向才能直冲云霄

只有明确目标和方向才能直冲云霄 十年前的今天开始写博客,记录人生故事,记录技术经历。十年后独著四本计算机图书同时登上国内IT图书市场,所著之书被国内各大图书馆所收藏。 谁都有迷茫的时...

OSSIM
2016/01/03
88
0
向前人生之路,亦步亦行作者:刘国辉

人生,向前走的 永远是路 人生,回头的 永远是回忆 再不幸的日子 都是过去的过去 再渴望的生活 都是已经来的明天 人生不论怎么经历 上坡的路和下坡路 选择走的姿势是 一个低下头 一个昂起头 ...

陌尘_9353
05/12
0
0
对话 | 薛娅菲:从0到1,行则将至

当周围变得安静,思维的敏感度就出来了。做新媒体的感觉,就像是迷雾中寻找方向,还时不时会撞墙。 “我第一次来到清华大学数据科学研究院见到韩亦舜老师,他让我看了《浪潮之巅》那本书。说...

Mr_zebra
02/01
0
0
MaxCompute携手ofo小黄车与阿里妈妈—邀你共赴大数据计算北京高端峰会

MaxCompute携手ofo小黄车、阿里妈妈和多点在线 邀您共赴北京大数据计算高端峰会 现在报名>>> 这里有阿里巴巴内部使用和沉淀近10年,支持阿里集团99%的数据存储和95%的计算的历年双11销售奇迹...

Mr_zebra
05/21
0
0
方向选择(嵌入式 大数据 java)

嵌入式:单片机之类的 比如指纹解锁底层就是此技术,反正就是和硬件打交道。 大数据:最近很火的概念技术 有点玄玄乎乎的,前途不好定义,不过门槛也是高的,对算法之类的要求还是比较高的 ...

codingcoge
05/03
0
0
普通人懂点数据分析,可以有多厉害?

中国最贵的商学院教授——刘润老师曾经讲过的一个令他深感震撼的真实故事。 有一天,我从徐家汇赶去机场,在美罗大厦前搜索出租车。一辆“大众”发现了我,非常专业地、径直地停在我的面前。...

DataHunter小数
2017/12/13
0
0
为什么软件开发周期通常是预期的两三倍?

导读:有国外开发者在 Quora 提了这个问题:“为什么软件开发周期通常是预期的两三倍?” 并补充问:“这是开发人员的错误? 是管理失误? 是因为做事方法不对, 或者说缺乏好的方法?还是说...

oschina
2013/08/16
5.9K
40
明天就要高考了,火了这么长时间的大数据又能做什么呢

俗话说,没有高考的人生是不完美的人生,毕竟它是人生最重要的一个转折点,即便不能因此改变你的命运,但至少会决定你在哪个城市打LOL...哦不,我说的是高考可能会决定你在哪个城市工作&生活...

风火数据
06/06
0
0
有史以来最牛逼的一张程序员职业路线图,分享给你

最近在琢磨程序员到底路在何方,经过不断的自虐和代入,终于在迷雾森林中得图一张,看之豁然开朗。独乐乐不如众乐乐,share了: (图1 程序员职业路线图) 术语表 图1中使用了很多术语,这里...

uw63zqpkxwlrl1
05/09
0
0
银行“进击”金融科技:也走BAT的路,越走越宽

雷锋网(公众号:雷锋网)AI金融评论按:本文作者苏宁金融研究院互联网金融中心主任薛洪言,授权转载自公众号苏宁财富资讯。原标题是《银行布局科技:走BAT的路,让BAT无路可走?》 “近几年云...

AI金融评论
05/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Linux服务器下的HTTP抓包分析

说到抓包分析,最简单的办法莫过于在客户端直接安装一个Wireshark或者Fiddler了,但是有时候由于客户端开发人员(可能是第三方)知识欠缺或者其它一些原因,无法顺利的在客户端进行抓包分析,...

mylxsw
10分钟前
0
0
mybatis3-javaapi

sqlSessionFactoryBuilder->sqlSessionFactory->sqlSession<-rowbound<-resultHandler myBatis uses a Java enumeration wrapper for transaction isolation levels, called TransactionIsol......

writeademo
13分钟前
0
0
Java NIO:浅析I/O模型

也许很多朋友在学习NIO的时候都会感觉有点吃力,对里面的很多概念都感觉不是那么明朗。在进入Java NIO编程之前,我们今天先来讨论一些比较基础的知识:I/O模型。下面本文先从同步和异步的概念...

yzbty23
13分钟前
0
0
了解iOS消息推送一文就够:史上最全iOS Push技术详解

本文作者:陈裕发, 腾讯系统测试工程师,由腾讯WeTest整理发表。 1、引言 开发iOS系统中的Push推送,通常有以下3种情况: 1)在线Push:比如QQ、微信等IM界面处于前台时,聊天消息和指令都会...

JackJiang-
15分钟前
0
0
Mysql汉子转拼音

update t_app_city SET CITY_NAME_BEGIN = ELT(INTERVAL(CONV(HEX(LEFT(CONVERT(CITY_NAME USING gbk),1)),16,10), 0xB0A1,0xB0C5,0xB2C1,0xB4EE,0xB6EA,0xB7A2,0xB8C1,0xB9FE,0xBBF7, 0xBFA......

尘叙缘
17分钟前
0
0
大数据构建智慧城市“新引擎”,加速推进新旧动能转换

——“大数据与智慧城市”技术交流分享会——济南站召开 7月13日,“大数据携手智慧城市,助力山东新旧动能转换”技术交流分享会——济南站在山东信息通信技术研究院会议室成功举办,此次会议...

左手的倒影
19分钟前
2
0
tomcat 学习笔记之 Session管理

1、Catalina 通过一个 Session 管理器的组件来管理建立的Session 对象 该组件由 org.apache.catalina.Manager 接口表示 Session 管理器必须与一个 Context 关联 Session 管理器负责,创建、更...

职业搬砖20年
19分钟前
0
0
jquery获取input框的几种方式

//如何用jquery获取<input id="test" name="test" type="text"/>中输入的值?$(" #test ").val()$(" input[ name='test' ] ").val()$(" input[ type='text' ] ").val()$(" input[ ......

gulf
22分钟前
0
0
gradle的环境变量的配置

gradle的环境变量的配置 1.首先下载jdk,并且配置jdk的环境变量. 2.找到自己AS安装gradle的目录 我自己的目录为:F:\Android Studio3.1.3\gradle\gradle-4.4 创建环境变量:GRADLE_PATH: F:\A...

android-key
28分钟前
0
0
saltstack配置apache

1.相关配置 #vim /etc/salt/master //打开如下内容的注释 file_roots: base: - /srv/salt #mkdir /srv/salt #vim /srv/salt/top.sls base: 'slaver.test.com': - apache 注意:若换成 '*',则......

硅谷课堂
29分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部