文档章节

spark内核揭秘-01-spark内核核心术语解析

stark_summer
 stark_summer
发布于 2015/01/18 09:09
字数 529
阅读 74
收藏 1

Application:

Application是创建了SparkContext实例对象的spark用户,包含了Driver程序:


Spark-shell是一个应用程序,因为spark-shell在启动的时候创建了一个SparkContext对象,其名称为sc:

Job:

和Spark的action相对应,每一个action例如count、saveAsTextFile等都会对应一个job实例,该job实例包含多任务的并行计算。

Driver Program:

运行main函数并且创建SparkContext实例的程序

Cluster Manager:

集群资源的管理外部服务,在spark上现在有standalone、yarn、mesos等三种集群资源管理器,spark自带的standalone模式能够满足大部分的spark计算环境对集群资源管理的需求,基本上只有在集群中运行多套计算框架的时候才考虑yarn和mesos

Worker Node:

集群中可以运行应用代码的工作节点,相当于Hadoop的slave节点

Executor:

在一个Worker Node上为应用启动的工作进程,在进程中赋值任务的运行,并且负责将数据存放在内存或磁盘上,必须注意的是,每个应用在一个Worker Node上只会有一个Executor,在Executor内部通过多线程的方式并发处理应用的任务。


Task:

被Driver送到Executor上的工作单元,通常情况下一个task会处理一个split的数据,每个split一般就是一个Block块的大小:


State:

一个job会被拆分成很多任务,每一组任务被称为state,这个MapReduce的map和reduce任务很像,划分state的依据在于:state开始一般是由于读取外部数据或者shuffle数据、一个state的结束一般是由于发生shuffle(例如reduceByKey操作)或者整个job结束时,例如要把数据放到hdfs等存储系统上

© 著作权归作者所有

stark_summer
粉丝 61
博文 75
码字总数 51050
作品 0
朝阳
CEO
私信 提问
加载中

评论(0)

spark 学习路线及参考课程

一、Scala编程详解: 第1讲-Spark的前世今生 第2讲-课程介绍、特色与价值 第3讲-Scala编程详解:基础语法 第4讲-Scala编程详解:条件控制与循环 第5讲-Scala编程详解:函数入门 第6讲-Scala编...

osc_s5wa3ebb
2018/05/07
22
0
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍 清华大学出版社发行上市!

2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍 清华大学出版社发行上市! 本书基于Spark 2.2.0最新版本(2017年7月11日发布),以Spark商业案...

osc_59sf9z1x
2018/03/15
2
0
【Spark】SparkStreaming-Tasks-数量如何设置?

SparkStreaming-Tasks-数量如何设置? sparkstreaming task 数量设置百度搜索 spark内核揭秘-14-Spark性能优化的10大问题及其解决方案 - starksummer - ITeye博客 如何在执行spark streaming...

osc_5s0xzojq
2018/01/11
5
0
王家林大咖清华大学新书Spark第二版已上市:前浪致 Spark + AI 后浪

王家林大咖清华大学新书Spark第二版已上市:前浪 致 Spark + AI 后浪 大咖心声 新书图片 新书介绍 编辑推荐 内容简介 作者简介 新书目录 第二版前言 第一版前言 新书案例讲解 第二版网购链接...

段智华
今天
0
0
教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。 分享之前我还是要推荐下我自己创建的大数据学习交...

风火数据
2018/05/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

npm 命令

npm 命令

osc_ekw8urc6
50分钟前
21
0
思科新发布第五版ACI 支持自动化和编排功能

近日,思科公司发布了其SDN技术的第五版应用中心基础架构(ACI),以向服务提供商提供自动化和编排。思科认为,这些功能对于寻求在部署5G的同时整合分布在数据中心,边缘和传输网络中的基础架...

开源村OSV
50分钟前
16
0
pdf转化为jpg怎么操作?如何将pdf变成jpg格式?

word中有需要使用的信息,直接复制下来就好了,但是换成是pdf文件之后,就不能这么操作了,因为pdf文件是一种不能被编辑的文件,那么这个时候怎么办呢?其实,想要使用pdf文件中的内容,我们...

真不莲
51分钟前
16
0
node buffer缓冲区

buffer

osc_qgfjs4a5
52分钟前
19
0
排序算法(四):归并排序(递归写法与非递归写法)

归并排序 基本思想: 归并排序是一种采用分治策略,将待排序序列分成若干个不可再分的子序列,先使每个子序列有序,再使子序列段间有序的高效排序算法。 排序过程(分治算法): 分的过程 这...

osc_rte0w83m
53分钟前
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部