文档章节

大数据分析的八大趋势

p柯西
 p柯西
发布于 06/15 01:30
字数 3815
阅读 18
收藏 0
点赞 0
评论 0

Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这一领域包含了储存原始数据的数据湖和云计算。尽管这些技术并未成熟,但等待也并非上策。

Loconzolo表示:“现实的情况是,这些工具都刚刚兴起,他们构筑的平台还不足以让企业依赖。但是,大数据和分析学等学科发展十分迅速,因此企业必须努力跟上,否则就有被甩掉的危险。”他还说:“过去,新兴技术往往需要十年左右的时间才能够成熟,但是现在大大不同了,人们几个月甚至几周时间就能想出解决方案。”那么,有哪些新兴技术是我们应该关注,或者说科研人员正在重点研究的呢?《电脑世界》采访了一些IT精英、咨询师和行业分析专家,来看看他们列出的几大趋势吧。

在这里还是要推荐下我自己建的***大数据学习交流群:784557197***,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

1.云端大数据分析

Hadoop是一组有一定框架结构的工具,用来处理大型数据组。它原本用于机器群,但现在情况有所变化。Forrester Research一位分析师BrianHopkins表示,现在有越来越多的技术可以运用到云端数据处理上来了。比如亚马逊的BI数据库、Google的 BigQuery数据分析服务,、IBM’sBluemix 云平台和亚马逊的Kinesis数据处理服务。这位分析师还说,未来的大数据将是内部数据部署与云端数据的结合体。

Smarter Remarketer是SaaS零售分析、市场细分和营销服务的供应商,它最近将自己室内的Hadoop和MongoDB数据库基础设施转移到了一个基于云技术的数据库—Amazon Redshift. 这家位于印第安纳波利斯的公司收集线上和实体销售数据、顾客信息和实时行为数据,之后进行分析,从而帮助零售商做出针对消费者的决策,有些决策甚至是实时的。

Abbott表示,Redshift可以节省这家公司的成本,这是因为它对于结构数据拥有强大的汇总报告功能,而且它颇具规模,使用起来相对容易。用这些虚拟设备总是要比那些实体设备便宜一些。

相比之下,位于加州山景城的Intuit在走向云分析的过程中就要谨慎多了,因为它需要一个安全、稳定、可控的环境。目前为止,这家金融软件公司的数据都还在自家的数据库—Intuit Analytics Cloud里面。Loconzolo表示:“目前我们正跟亚马逊还有Cloudera合作,建立一个我们几家公司公用的能跨越虚拟、现实两个世界的、具有高度稳定性的云端,但是现在这个问题还没有得到解决。”然而,可以说,对于像Intuit这种销售云端产品的公司来说,向云端技术进军是必然的。Loconzolo还说道,未来我们会发展到一个阶段,那时把数据放在私有云端将是浪费的。

2. Hadoop:一个新的企业数据运行系统

Hopkins表示,向MapReduce这样的分布式分析框架,正在逐渐演化成分布式资源管理器,这些资源管理器正逐步将Hadoop变为多用途数据运行系统。“有了这些系统,你就可以进行多种多样的操作和分析。”

这对企业来说意味着什么呢?SQL、MapReduce、in-memory、流水式处理、图表分析还有其它工作都能在Hadoop上进行,越来越多的企业会把Hadoop当做企业数据中心。Hopkins还说:“在Hadoop上能进行各种各样的数据处理工作,这样的话,Hadoop会慢慢变成一个多用途的数据处理系统。”

Intuit已经开始在Hadoop建立自己的数据基地了。Loconzolo说:“我们的策略是利用Hadoop分布式文件系统,因为它和MapReduce与Hadoop等联系十分密切,这样的话,人与产品之间的各种互动就可以实现了。

3.大数据湖泊

美国普华永道首席技术专家Chris Curran说,传统数据库理论认为,人们应该先设计数据集,然后再将数据输入进去。而“数据湖泊“,也被称作“企业数据湖泊”或者“企业数据中心”,颠覆了这个理念。“现在,我们先收集数据,然后把它们都存入Hadoop仓库里,我们不必事先设计数据模型了。”这个数据湖泊不仅为人们提供了分析数据的工具,而且很明确地告诉你,这里有什么样的数据。Curran还表示,运用Hadoop的过程中人们就可以增加对数据的认识。这是一个递增的、有机的大规模数据库。当然,这样一来,对使用者的技术要求相应地会比较高。

Loconzolo表示,Intuit拥有自己的数据湖泊,这个数据湖里既有用户点击量的数据,也有企业和第三方的数据,所有这些都是Intuit分析云端的一部分,但关键是要让围绕这个数据湖的工具能够为人们有效利用起来。Loconzolo还说,对于在Hadoop建立数据湖,一个需要考虑的问题是,这个平台并没有完完全全的为企业的需求设置周全。“我们还需要传统企业数据库已经有了几十年的一些功能,比如监控访问控制、加密、安全性以及能够从源头到去向地追踪数据等等。

4.更多预测分析

Hopkins表示,有了大数据,分析师们不仅有了更多的数据可以利用,也拥有了更强大的处理打量不同属性数据的能力。

他说:“传统的机器学习利用的数据分析是建立在一个大数据集中的一个样本基础上的,而现在,我们拥有了处理了大量数字记录的能力,甚至于每条数据有多种不同属性,我们都应对自如。”

大数据与计算功能的结合也让分析师们能够挖掘人们一天中的行为数据,好比他们访问的网站或者是去过的地方。Hopkins把这些数据称作“稀少数据(sparsedata)”,因为要想得到这些你感兴趣的数据,必须过滤掉一大堆无关的数据。“要想用传统机器算法对抗这种数据,从计算角度来讲几乎不可能。因为计算能力是一个十分重要的问题,特别是现在传统算法的速度和记忆储存能力退化很快。而现在你可以很容易知道哪些数据是最容易分析的,不得不说,赛场易主了。”

Loconzolo表示:“我们最感兴趣的地方是,怎样在同一个Hadoop内核中既能作实时分析,又能做预测模型。这里最大的问题在于速度。Hadoop花费的时间要比现有技术长20倍,所以Intuit也在尝试另一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具有快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”

5.Hadoop的结构化查询语言(SQR, StructuredQuery Language):更快,更好

Gartner一位分析师表示,如果你是个不错的编码员或者数学家,你可以把数据丢进Hadoop,想做什么分析就做什么分析,这是好处,但同时这也是个问题。“尽管任何程序语言都行得通,但我需要有人把这些数据用我熟悉的形式或者语言输入进去,这也是为什么我们需要Hadoop的结构化查询语言。支持与SQR类似的查询语言的工具,让那些懂得SQR的企业使用者们能把类似的技术运用在数据上。Hopkins认为,Hadoop的SQR打开了企业通往Hadoop的大门,因为有了SQR,企业不需要在那些能使用Java, JavaScript 和Python高端数据和商业分析师上投资了,而这些投资在以前可是少不了的一笔开销。

这些工具也并非最近才出现的了。Apache Hive曾经为用户提供了一种适用于Hadoop、类似于SQR的查询语言,但是竞争对手Cloudera、PivotalSoftware、IBM还有其他销售商提供的产品不仅性能更好,速度也更快。这项技术也适合“迭代分析(iterative analytics)”,也就是说,分析师先问一个问题,得到回答之后再问下一个问题。而这种工作放在过去可是需要建立一个数据库的。Hopkins说:“Hadoop的SQR并不是为了取代数据库,最起码短期不会,但对于某些分析来说,它让我们知道,除了那些高成本的软件和应用之外,还有别的选择。”

6.不仅仅是SQR(NoSQL,NotOnly SQR)—更快,更好

Curran表示,现在我们除了基于SQR的传统的数据库之外,还有NoSQL,这个数据库能用于特定目的的分析,当下十分热门,而且估计会越来越受欢迎。他粗略估计目前大概有15-20个类似的开放资源NoSQL,每一个都独具特色。比如ArangoDB,这是一款具备图标分析功能的产品,能更快、更直接地分析顾客与销售人员之间的关系网。

Curran还说,开放资源的NoSQL数据库已经存在一段时间了,但是他们依然势头不减,因为人们需要它们所做的分析。一位在某个新兴市场的普华永道客户把传感器按在了店面柜台上,这样就能监控到那里到底有什么产品,顾客会摆弄这些产品多长时间以及人们会在柜台前站多久。“传感器会产生大量类似指数增长的数据,NoSQL将是未来的一个发展方向,因为它可以针对特定目的进行数据分析,性能好,而且很轻巧。”

7.深度学习

Hopkins认为,作为一种基于神经网络的机械学习技术,虽然还在发展过程中,但在解决问题方面却已经表现出巨大的潜力。“深度学习……能够让计算机在大量非结构化和二进制的数据中识别出有用信息,而且它能够在不需要特殊模型和程序指令的前提下就剔除那些不必要的关系。”

举个例子说明:一个深度学习的算法通过维基百科了解到加利福尼亚和德克萨斯是美国的两个州。“我们不在需要通过模式化让程序去理解州和国家的概念,这就是原来的机械学习和新兴深度学习的区别之一。”

Hopkins还说道:“大数据运用先进的分析技术,例如深度分析,来处理各种各样的非结构文本,这些处理问题的思路和方式,我们也是现在才开始理解。”比如,深度学习可以用来识别各种各样不同的数据,比如形状、颜色和录像中的物体,甚至是图片中的猫—谷歌建立的神经网络就做到了这一点。“这项技术所昭示的认知理念、先进的分析,将是未来的一个趋势。”

8.内存中分析

Beyer表示,利用内存中数据库来提升分析处理速度,这种方式已经越来越广泛,而且只要运用得当,益处也很多。事实上,很多企业现在已经在利用HTAP(hybridtransaction/analytical processing)了,这种处理方式能在同一个内存数据库中进行转换和分析处理。但Beyer同时也表示,对于HTAP的宣传有些过头了,很多公司也过度利用这项技术。对于那些使用者需要每天多次以同样的方式看同样数据的系统来说,这样的数据没有太大变化,这时用内存中分析就是一种浪费了。

虽然有了HTAP的帮助,人们分析速度更快了,但是,所有的转换都必须储存在同一个数据库里。Beyer认为,这样的特点就产生了一个问题,分析师们目前的工作主要是把不同地方的数据汇总输入到同一个数据库当中去。“如果你想做任何分析都运用HTAP,所有的数据就得存在同一个地方。要把多样化的数据进行整合。”

然而,引入内存数据库的同时也意味着,还有另一个产品等着我们去管理、维护、整合与权衡。

对于Intuit而言,他们已经在使用Spark了,所以对引进内存数据库的愿望并没有那么强烈。Loconzolo说:“如果我们用Spark就能处理70%的问题,而用内存数据库可以解决100%,那么我们还会选择前者。所以我们现在也在权衡,要不要马上停用内部的内存数据系统。”

大步向前迈

在大数据和分析领域有这么多的新兴趋势,IT组织应该创造条件,让分析师和数据专家们大显身手。Curran认为:“我们需要评估、整合一些技术,从而把它们运用到商业领域中去。”

Beyer则认为:“IT管理者和执行者们不能把技术不成熟作为停止试验的借口。”最初只有一部分专业分析师和数据专家需要试验,然后这些比较高级的使用者和IT行业应该共同决定是否要把这些新的资源介绍给行业其他人。IT界也没必要控制那些鼓足干劲的分析师们,相反,Beyer认为应该与他们加强合作。

© 著作权归作者所有

共有 人打赏支持
p柯西
粉丝 7
博文 90
码字总数 127602
作品 0
长沙
鲁四海解读中国大数据发展10大趋势5大挑战

2016年7月14号,首席数据官联盟在京发布了2016年《中国大数据企业排行榜》。本次发布的《中国大数据企业排行榜》由北京大学电子政务研究院、中国新一代IT产业推进联盟共同指导,由首席数据官...

玄学酱
05/21
0
0
“猎豹”牵手“联想”启动大数据合作

10日讯(记者 胡信松 通讯员 袁毅 周华山)创新驱动,跨界联姻。今天,记者从长丰集团获悉,猎豹汽车与联想集团大数据战略合作项目已经正式启动,双方将在大数据采集、组合与应用、车联网及汽...

玄学酱
03/08
0
0
这8大技术或将颠覆2018年

  2018年伊始,许多科技大势仍在继续,正如比尔·盖茨所说,“大多数人高估了某种技术的短期价值,低估了其长期价值。”同样,大多数的年度预测会高估了一年内一些事件发生的可能性,并低估...

大数据头条
01/08
0
0
大数据助力中国速度 联想与中铁一院达成大数据战略合作

2017年8月18日,联想集团与中铁第一勘察设计院集团有限公司举行高层会面交流并达成大数据战略合作协议。今后,双方将结合各自技术及实践积累,资源共享、形成合力,以大数据应用技术为依托,...

玄学酱
03/06
0
0
大数据分析的八大趋势

Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这...

dongzhumao
2015/05/19
0
0
Venus程序量化 - 新一轮行情及2017趋势

2017-02-15程序量化投资Venus 今天简短分析一下目前行情及2017的趋势大胆猜想。 1. 大盘分析 大盘近1-2周走势非常不错,3301的调整时间上自2016年的11月底/12月初,至1月底年前已经基本耗尽...

erixhao
2017/02/16
0
0
“2017CIO时代中国行苏州站”成功举行

2017年9月16日,由中国新一代IT产业推进联盟、江苏省企业信息化协会指导,CIO时代学院、苏州工业园区人工智能产业协会、江苏省企业信息化协会苏州代表处联合主办,CIO时代APP、苏州IT人俱乐部...

玄学酱
03/05
0
0
解读互联网+汽车全产业链 上汽、北汽福田、吉利汽车发力信息化建设

2017在互联网汽车的大背景下,智能网联汽车市场产业链发展迎来机遇,网联化相关技术日趋成熟,国际汽车整车、零部件龙头在各自特有的优势领域深入挖掘,通过互相合作推进自动驾驶技术的融合程...

玄学酱
03/02
0
0
解析百融金服:不仅仅是Experian的中国门徒

在4月宣布完成10亿元人民币C轮融资后,百融金服在人工智能金融实验室的建设与研发正在加速。 5月19-20日,“2018清华五道口全球金融论坛”在北京清华大学新清华学堂举行。在会上还进行了金融...

AI金融评论
05/22
0
0
数介科技荣获“2016中国大数据最佳实践”奖

11月24日,由中国软件网和海比研究联合主办的数据趴活动圆满落幕,活动现场隆重揭晓了大数据领域的重磅榜单,旨在对大数据领域中表现突出的企业、人物进行表彰。北京数介科技有限公司(以下简...

玄学酱
05/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

自定义OkHttp的UA

背景 上次的问题很明显 由于我们的ua清一色OkHttp导致快速定位到内部应用。 既然如此我们是否考虑可以在UA上做点手脚。 自定义我们的UA呢??? 分析 首先UA在 均为okhttp/3.2.0 大概率是由于...

Mr_Qi
16分钟前
0
0
【scikit-learn】01:使用案例对sklearn库进行简单介绍

sklearn学习笔记:Quick Start 源地址:http://scikit-learn.org/stable/tutorial/basic/tutorial.html # -*-coding:utf-8-*-''' Author:kevinelstri Datetime:2017.2.16'''......

wangxuwei
20分钟前
0
0
Linux Kernel 4.16 系列停止维护,用户应升级至 4.17

知名 Linux 内核维护人员兼开发人员 Greg Kroah-Hartman 近日在发布 4.16.18 版本的同时,宣布这是 4.16 系列的最后一个维护版本,强烈建议用户立即升级至 4.17 系列。 Linux 4.16 于 2018 年...

问题终结者
22分钟前
0
0
Apache配置时.htaccess失效不起作用的原因分析

.htaccess 失效的原因 1. 重写规则有问题,检查自己的重写规则 2.Apache配置问题,配置中没有配置启用 rewrite a2enmod rewrite 3.网站配置文件没有启用配置需要配置 000-default.conf <Dire...

TU-DESGIN
42分钟前
1
0
两个求最大公约数C/C++算法实现

#include<stdio.h> #include<time.h> #include <iostream>using namespace std;//求最大公约数 LCD(Largest Common Division)//短除法 //m=8251, n=6105; int LCD_ShortDiv(int m, ......

失落的艺术
48分钟前
1
0
QueryPerformanceCounter

windows的Sleep函数,睡眠线程指定毫秒数,可以用来做毫秒延时。 对于微秒延时,没有一个现成的函数,但是可以通过 QueryPerformanceFrequency QueryPerformanceCounter 来间接实现。原理就是...

开飞色
今天
1
0
log4j2使用AsyncRoot不显示行号问题处理

<AsyncRoot level="info" includeLocation="true"> <AppenderRef ref="File"/></AsyncRoot><!--1.异步logger,还需要在pom.xml中添加disruptor的依赖。2.includeLocation结合异......

小翔
今天
3
0
安卓手机上 K 歌,声音延迟怎么解决?

这篇文章可以为你提供一个解决录音和播放同步问题的思路,而且解决了声音从手机传输到耳机上有延时的问题。 初识音频 在开始之前,我先简单介绍一下音频相关的基础知识,方便下文理解。 我们...

编辑部的故事
今天
2
0
使用token实现在有效期内APP自动登录功能

使用token实现在有效期内APP自动登录功能 http://sevennight.cc/2016/07/19/auto_login_impl.html

风云海滩
今天
2
0
Spring Boot集成RabbitMQ发送接收JSON

默认情况下RabbitMQ发送的消息是转换为字节码,这里介绍一下如何发送JSON数据。 ObjectMapper 最简单发送JSON数据的方式是把对象使用ObjectMapper等JSON工具类把对象转换为JSON格式,然后发送...

小致dad
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部