文档章节

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节①

Spark亚太研究院
 Spark亚太研究院
发布于 2014/12/29 21:45
字数 356
阅读 201
收藏 2

一、到底什么是Spark?

Spark是一个通用的大数据计算平台,基于“One Stack to rule them all”的理念成功成为了一体化多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等:

Spark源于BDAS:

基于该技术堆栈,Spark目前已经成为大数据通用计算平台:

二, Spark的速度为何如此之快?

首先我们看一下Hadoop经典的处理过程:

MapReduce在每次执行的时候都要从磁盘读数据,计算完毕后都要把数据存放到磁盘上:

而Spark是基于内存的:

另外一方面,DAG也是Spark快的极为重要的原因,下面是一张DAG图的示例:

大家也可以看一下网络上一张描述DAG更多细节的图片:

基于DAG,Spark具备了非常精致的作业调度系统:

DAG中的依赖有宽依赖和窄依赖之分:

在DAG图中可以根据依赖对pipeline等优化操作:

基于RDD和DAG,并行计算整个Job:

Spark之所以快,还有一个原因就是其容错机制,这个我们会在本讲的后面和大家分享。

 

© 著作权归作者所有

Spark亚太研究院
粉丝 76
博文 73
码字总数 35236
作品 0
朝阳
技术主管
私信 提问
加载中

评论(0)

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地...

Spark亚太研究院
2014/08/29
1.7K
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(13)

从控制台可以看到我们的程序成功在集群上运行: Detail for stage 1: Detail for Stage 0: 查看一下Executors的信息: 上述信息表明程序成功在Spark集群上运行。 第四步:基于IDEA构建Spark...

Spark亚太研究院
2014/11/20
295
0
OSC 第 65 期高手问答 — Spark 企业级实战

OSCHINA 本期高手问答(3月23日-3月29日)我们请来了 @王家林 (王家林)为大家解答关于 Spark 开发方面的问题。 王 家林,Spark 亚太研究院院长和首席专家,当今云计算领域最火爆的技术Docke...

叶秀兰
2015/03/23
6.4K
22
18小时内掌握Spark,全面提升Spark技能!

伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以其无可比拟的优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。   Spark是基于内存,是云计算领域的继...

Spark亚太研究院
2014/06/12
98
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节②

三、你为什么需要Spark; 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoo...

Spark亚太研究院
2014/12/16
462
2

没有更多内容

加载失败,请刷新页面

加载更多

thinkphp6+vue2.6+element2.13前后端分离解决方案

本人一直在从事PHP后端开发工作,MVC模式写了很多年,总觉得MVC这种分层不太顺手,还有就是后台模板太旧。于是,在2019年3月份,基于thinkphp5+vue-admin-element,写第一版本,主要实现了后...

hardphp
34分钟前
13
0
OSChina 周五乱弹 —— 来自祖安喵对恶魔的祝福

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @薛定谔的兄弟 :+分享洛神有语创建的歌单「我喜欢的音乐」: 《See U for 123 seconds》 - AniFace 手机党少年们想听歌,请使劲儿戳(这里) ...

小小编辑
37分钟前
21
0
如何检查字符串是否为数字(浮点数)? - How do I check if a string is a number (float)?

问题: What is the best possible way to check if a string can be represented as a number in Python? 检查字符串是否可以在Python中表示为数字的最佳方法是什么? The function I curre......

技术盛宴
54分钟前
13
0
Elasticsearch - Kibana安装和简单使用

下一篇:Elasticsearch - 中文分词器(IK) 安装和简单使用 Kibana 简介:Kibana 可以为Elasticsearch中索引的数据提供搜索和数据可视化功能。 通常视作 ES的制图工具 也可以作为用户界面来监测...

庭前云落
今天
19
0
Unicode13正式发布,更多的Emoji

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一...

老孟的Linux私房菜
今天
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部