文档章节

大数据技术学习,大数据处理为何选择Spark,而不是Hadoop

董黎明
 董黎明
发布于 10/20 19:20
字数 811
阅读 15
收藏 3

大数据处理为何选择Spark,而不是Hadoop。

一.基础知识

1.Spark

Spark是一个用来实现快速而通用的集群计算的平台。

在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。

Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

Spark的各个组件

2.Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

二.大数据处理选择

根据Spark和Hadoop的基础知识,我们了解Spark和Hadoop都 可以进行大数据处理,那我们如何选择处理平台呢?

1.处理速度和性能

Spark扩展了广泛使用的MapReduce计算模型,其中Spark有个Directed Acyclic Graph(DAG有向无环图)执行引擎,支持循环数据流和内存计算。

Hadoop是磁盘级计算,进行计算时,都需要从磁盘读或者写数据,同时整个计算模型需要网络传输,导致MapReduce具有高延迟的致命弱点。

据统计,基于Spark内存的计算速度比Hadoop MapReduce快100倍以上,基于磁盘的计算速度也要快10倍以上。

2.开发难易度

Spark提供多语言(包括Scala、Java、Python)API,能够快速实现应用,相比MapReduce更简洁的代码,安装部署也无需复杂配置。使用API可以轻松地构建分布式应用,同时也可以使用Scala和Python脚本进行交互式编程。

3.兼容性

Spark提供了一个强大的技术栈,基于”One Stack to rule them all”的理念实现一体化、多元化的大数据处理平台,轻松应对大数据处理的查询语言Spark SQL、机器学习工具MLlib、图计算工具GraphX、实时流处理工具Spark Streaming无缝连接。

Hadoop的技术栈则相对独立复杂,各个框架都是独立的系统,给集成带来了很大的复杂和不确定性。

4.相互集成性

Spark可以运行在Hadoop集群管理Yarn上,这使得Spark可以读取Hadoop的任何数据。同时它也能读取HDFS、HBase、Hive、Cassandra以及任何Hadoop数据源。

 

© 著作权归作者所有

共有 人打赏支持
董黎明
粉丝 12
博文 114
码字总数 285804
作品 0
深圳
私信 提问
hadoop和spark的区别你搞明白了吗

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下...

左手的倒影
06/27
0
0
hadoop和spark的区别介绍

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下...

adnb34g
06/22
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节①

一、到底什么是Spark? Spark是一个通用的大数据计算平台,基于“One Stack to rule them all”的理念成功成为了一体化多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式...

Spark亚太研究院
2014/12/29
0
0
第二期:关于十大数据相关问答汇总,关注持续更新中哦~

NO.1 学大数据如何零基础入门? 答:学习任何东西都一样,一开始就是一道坎,我很喜欢看书,特别是容易入门的书。对于大数据,我的具体研究方向是大规模数据的机器学习应用,所以首先要掌握以...

琳达老师
05/12
0
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节 ①

一、MapReduce已死,Spark称霸 由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。正如任何领域一样...

Spark亚太研究院
2014/12/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

AI赋能一键自动检测:页面异常、控件异常、文本异常

摘要: 1.前言 闲鱼质量团队一直致力于交付高质量的app给用户,当前随着AI技术不断发展,TensorFlow大热,也给测试手段带来了更多种可能,本文接下来给大家介绍AI在闲鱼测试的一点实践:如何...

阿里云官方博客
27分钟前
1
0
Microsoft Remote Desktop For Mac

地址:https://rink.hockeyapp.net/apps/5e0c144289a51fca2d3bfa39ce7f2b06/ 解决国内App store不能下载的问题。

Cheuker
38分钟前
1
0
原地打印刷新(倒计时)

原地打印刷新(倒计时) 代码如下 from time import sleepfor i in reversed(range(1, 11)): print("\r倒计时:{}秒".format(i), end="") sleep(1)...

_Change_
50分钟前
1
0
php,vue,vue-ssr 做出来的页面有什么区别?

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由shirishiyue发表于云+社区专栏 目前我这边的web页面,都是采用php+smarty模板生成的,是一种比较早期的开发模式。好处是没...

腾讯云加社区
57分钟前
3
0
安卓的切图规范

Android UI 切图命名规范、标注规范及单位描述 很多UI设计师做APP切图都会有两套,一套是Android的,一套是IOS的。IOS我这边暂不作讲解,因为我本人也不是开发IOS。这里整理一下我在Android...

mo311
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部