文档章节

大数据处理之荷兰三剑客

gaolu
 gaolu
发布于 2017/04/25 20:10
字数 1041
阅读 38
收藏 0

大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技术已经不再是难点,但是对大数据如何做好存储后的下一步处理将是未来竞争的焦点,目前比较受欢迎的Storm, Spark, Hadoop三个大数据处理工具都是JVM上的语言写成的。
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。
Storm由java和clojure写成,storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快。
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率。

spark弥补了hadoop的不足,使之各有各的优势和用处。三者的适用范围如下:Hadoop常用于离线的复杂的大数据处理;Spark常用于离线的快速的大数据处理;Storm常用于在线的实时的大数据处理。

那么,大数据的核心是什么?依笔者愚见,有三个方面:一是数据,没有数据扯啥都是白搭;二是技术,没有大数据的处理技术,那么数据也就只是一些磁盘;三是思想,有了数据和处理技术,还要有idea,也就是怎么让数据产生更大的价值。
大数据的核心,首先是有其价值,如果数据量很大,而没有价值,那么大数据也就没什么特别了,所以大数据最重要的就是我们能从大量数据中分析、挖掘出对组织有益的信息,当然了,到底有没有用,还得经过实际验证。
另外,就是速度得快,市场机会稍纵即逝,所以如果分析那么多数据,需要一个星期,或者一个月,那么可能意义也不大了。

Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?其实这些只是表面不同的工具而已,本质上的思想是一致,相信未来还会有更多的工具涌现出来,但思想确很难有所变化,比如,你要想快,那么从计算机的体系结构来看,就得多内存,而少硬盘,因为硬盘太慢了。
另外,从处理问题的角度也是一样的,通过采用更多的资源,以分布式的方式,来同时处理那么的数据,速度也肯定会快,当然前提是,不同机器之间交互通信的成本,低于由此带来的益处。

storm是实时处理,spark和hadoop是批处理,两者是互补。而spark和hadoop比较的话,spark主要是充分利用内存计算并且支持更多的操作而不仅是map/reduce,这样有些迭代密集的算法执行效率会更高,而hadoop可能需要多个mr任务来完成。在2.0之后,hadoop使用了新的yarn框架,map/reduce只是其中一种默许了,spark也可以在hadoop的yarn框架下运行的,所以2者还会是融合的。

今后大数据的发展趋势,套用一条耳熟能详的口号就是,更快、更高、更强。不过也需要更加规范,这些个东西,A工具、B工具、C工具,感觉有点像一个个玩具,还不是一个成熟的产品,所以,以后可能会有专门的公司来做商业化的软件,更加成熟的软件。经过几年的酝酿应该会有更多的应用出现,除了互联网,在某些行业用户中也会有落地的成果。
 

© 著作权归作者所有

gaolu
粉丝 29
博文 58
码字总数 52768
作品 0
朝阳
架构师
私信 提问
网络攻防“三剑客”正式加盟墨者安全 担任首席安全顾问

随着全球经济一体化和知识经济时代的到来,人力资源已成为企业的核心资源,技术型人才战略对于企业的发展至关重要作用。基于这种考虑和认知,深圳市墨者安全科技有限公司(简称“墨者安全”)...

墨者安全
01/19
0
0
“Linux安全运维三剑客“被全国300所高等院校图书馆收藏

认准当当自营店:Linux安全运维三剑客 李晨光业内重磅作品:《Linux企业应用案例精解》、《UNIX/Linux网络日志分析与流量监控》、《开源安全运维平台OSSIM最佳实践》被誉为Linux安全运维三剑...

李晨光
2018/06/21
0
0
awk的基本概念,基础用法和高级用法

awk: 文本处理三剑客:grep系,sed,awk grep系:grep,egrep,fgrep,基于PATTERN进行文本过滤; sed:流编辑器,逐行编辑器;模式空间,保持空间; awk:报告生成器;格式化文档输出;...

狐狸和鳄鱼
2018/04/20
0
0
网站网页开发的软件选择

想建立一个自己的网站.百度了一下.大多都是用叫网页三剑客的软件.我不想用盗版软件.因为自己的网站要求简单.我想问一下除了网页三剑客还有其他免费网页开发软件吗?最后我还不明白(网站和网...

咪咪
2011/08/09
149
0
半天就能上手的小程序——选择器多级联动

近段时间由于一直沉迷王者农药无法自拔,在这先自我检讨... 首先说下今天要做的需求:如下图,是前段时间给APP中添加的客诉功能。 能看到,里面涉及到了选择器多级联动(这里就两级)。然而,...

APP叫我取个帅气的昵称
2017/05/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
今天
8
0
Linux创建yum仓库

第一步、搞定自己的光盘 #创建文件夹 mkdir -p /media/cdrom #挂载光盘 mount /dev/cdrom /media/cdrom #编辑配置文件使其永久生效 vim /etc/fstab 第二步,编辑yun源 vim /ect yum.repos.d...

究极小怪兽zzz
今天
6
0
jar 更新部分文件

C:\Program Files (x86)\Java\jdk1.8.0_102\bin>jar -hIllegal option: hUsage: jar {ctxui}[vfmn0PMe] [jar-file] [manifest-file] [entry-point] [-C dir] files ...Options: -c c......

圣洁之子
今天
9
0
OSChina 周六乱弹 —— 感谢女装红薯开办了这个网站

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @胖达panda:分享歌词: 我有一只小毛驴我从来也不骑,有一天我心血来潮骑着去赶集,我手里拿着小皮鞭我心里正得意,不知怎么哗啦啦,我摔了一...

小小编辑
今天
2.6K
13
DDD(四)

1,引言 软件开发者大多趋向于将关注点放在数据上,而不是领域上。这对于刚入门的DDD的新手而言也是如此。以我目前的思考方式,数据库依然占据主要的地位。开发一个功能,首先我就会考虑我会...

MrYuZixian
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部