文档章节

Spark 1.6.0 源码精读

柯里昂
 柯里昂
发布于 2016/04/03 19:26
字数 992
阅读 292
收藏 9
点赞 1
评论 0

Spark 1.6.0

 

一般程序的入口都是这个步骤,Config->Context

Spark也不例外,先从入口开始

SparkConf:Spark 应用程序的配置

/**
  * SparkConf.scala 
  *
  *
  * Configuration for a Spark application. Used to set various Spark parameters as key-value pairs.
  *
  * Most of the time, you would create a SparkConf object with `new SparkConf()`, which will load
  * values from any `spark.*` Java system properties set in your application as well. In this case,
  * parameters you set directly on the `SparkConf` object take priority over system properties.
  *
  * For unit tests, you can also call `new SparkConf(false)` to skip loading external settings and
  * get the same configuration no matter what the system properties are.
  *
  * All setter methods in this class support chaining. For example, you can write
  * `new SparkConf().setMaster("local").setAppName("My app")`.
  *
  * Note that once a SparkConf object is passed to Spark, it is cloned and can no longer be modified
  * by the user. Spark does not support modifying the configuration at runtime.
  *
  * @param loadDefaults whether to also load values from Java system properties
  */

 

SparkContext:

/**
 * SparkContext.scala
 *
 * 
 * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark
 * cluster, and can be used to create RDDs, accumulators and broadcast variables on that cluster.
 *
 * Only one SparkContext may be active per JVM.  You must `stop()` the active SparkContext before
 * creating a new one.  This limitation may eventually be removed; see SPARK-2243 for more details.
 *
 * @param config a Spark Config object describing the application configuration. Any settings in
 *   this config overrides the default configs as well as system properties.
 */

SparkContext :由上述注释可知:

  • Spark功能的主入口。

  • 充当与Spark Cluster的连接的角色

  • 在集群中创建RDD,累加器,广播器

另外:

  • Spark程序的注册是通过SparkContext实例化时产生的对象来完成的,具体是被SchedulerBackend注册给集群的。standalone的模式下,是SparkDeploySchedulerBackend。

  • Spark程序运行的时候要通过Cluster Manager来获取具体的计算资源,计算资源的获取也是SparkContext产生的对象申请的

  • Spark的调度优化也是基于SparkContext的,RDD创建完后不会立即执行,会由SparkContext中的TaskScheduler和DAGScheduler等来调度优化。

  • SparkContext奔溃或者结束时,整个Spark程序也结束了。

 

 

综上所述:SparkContext主要是是创建RDD、累加器、广播、注册程序、获取计算资源、调度优化。

上述的SchedulerBackend中的Scheduler可以理解为是TaskScheduler,而不是DAGScheduler。也就是说SchedulerBackend是TaskScheuler的backend。

 

 


从调度角度来看,分为DAGScheduler和TaskScheduler,都是保证进度按时完成的。

假如拿盖房子来说,可以分为打地基,砌墙,盖顶,粉刷等阶段[stage]。而具体里面每一个阶段中,比如砌墙,可以分为砌东南西北墙等。

DAGScheduler属于高层调度器,只要是负责Stage层面的调度和失败重试。比如上面的地基,砌墙,盖顶,粉刷等阶段,而且都是有依赖关系的【shuffle】。如果哪个步骤失败了,也负责通知重试。

TastScheduler属于底层调度器,负责Task层面的调度和失败重试。比如上面的 砌墙中的砌南墙,如果南墙失败了,则负责通知重砌。

 

SparkContext构建的3大对象:

DAGScheduler:是面向Job的Stage的高层调度器,是一个类。

TaskScheduler:是一个接口。目前只有TaskSchedulerImpl一个实现。

SchedulerBackend:也是一个接口。根据不同的Cluster Manager的不同实现而实现不同。在standalone下,是SparkDeploySchedulerBackend

 

从整个程序运行时的角度来讲分为4大核心对象:DAGScheduler、TaskScheduler、SchedulerBackend、MapOutputTrackerMaster。

除了上面已有的3个。

MapOutputTrackerMaster是负责Shuffle数据输出和读入的管理。

 

SparkDeploySchedulerBackend有3大核心功能:

负责与Master连接,注册当前程序。standalone下,由SparkDeploySchedulerBackend的start方法中创建的AppClient中的ClientEndpoint向Master注册的。

接受集群中为应用程序分配的计算资源Executor的注册和管理。主要是向Driver。

将Task发送给Executor。

补充说明的是:SchedulerBackend是被TaskSchedulerImpl管理的。

 

当通过SparkDeploySchedulerBackend向Master注册程序的时候,Master会将Command发指令给Worker下的Executor,Worker启动Executor所在进程的时候,该进程名字就是CoarseGrainedExecutorBackend。该类是有main方法的入口类。且Executor是先向Driver注册成功后,再启动具体的Executor。


Spark 之SparkContext 源码精读1

 

 

© 著作权归作者所有

共有 人打赏支持
柯里昂
粉丝 24
博文 162
码字总数 78925
作品 0
徐汇
技术主管
Spark运行调试方法与学习资源汇总

最近,在学习和使用Spark的过程中,遇到了一些莫名其妙的错误和问题,在逐个解决的过程中,体会到有必要对解决上述问题的方法进行总结,以便能够在短时间内尽快发现问题来源并解决问题,现与...

天天顺利
2015/05/07
0
1
windows 安装 spark 及 pycharm 调试 TopN 实例

首先声明本文搭建的环境为:windows8.1 + spark1.6.0 + python2.7 + jdk8,spark on windows 对 windows及python版本不怎么挑,但是对 spark 版本要求极其苛刻,比如 spark1.6.1 就无法运行。...

大数据之路
2012/06/28
0
0
Spark源码分析调试环境搭建

目前常用的Spark版本有三种Cloudera、HDP和Apache,源码的获取方式可以在各自官网下载。本文选择Apache版本。 搭建环境所需要的工具如下: CentOS 7 maven 3.5.0 Java 1.8.0 Scala 2.12.2 I...

火力全開
2017/10/26
0
0
教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。 分享之前我还是要推荐下我自己创建的大数据学习交...

风火数据
05/20
0
0
Spark On Yarn Cluster 模式下的远程调试Spark源码(Attach模式)

Spark源码学习时,我们通常很想知道Spark-submit提交之后,Spark都做了什么,这就需要我们对Spark源码进行单步调试。另外,我们在spark on yarn模式下,尤其是yarn-cluster模式下,我们无法连...

stefan_xiepj
05/24
0
0
关于学习的思考 - 不行就用笨办法【一千零一日】

想想自己的学习经历,自己勉强算是一个坚持自学,并且把终身学习做为重要人生目标的人。从初中开始,基本上所有的东西都是自学的,也很喜欢接触新事物,初中时,因为一些学校原因,初三撤学,...

武耀文
05/14
0
0
1、Spark预编译版本下载安装与启动

1、下载 2、安装 3、hadoop 4、spark-shell scala> file.first() 5、Resilient Distributed Dataset 6、通过编译方式安装spark 轻量级高速集群计算。针对大规模的数据处理快速通用的引擎。比...

chenkangyao
2017/10/26
0
0
Spark成为大数据高手进阶步骤

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapRedu...

MoksMo
2015/11/05
0
1
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节②

三、你为什么需要Spark; 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoo...

Spark亚太研究院
2014/12/16
0
1
Spark 伪分布式 & 全分布式 安装指南

0、前言 3月31日是 Spark 五周年纪念日,从第一个公开发布的版本开始,Spark走过了不平凡的5年:从刚开始的默默无闻,到13年的鹊起,14年的大爆发。Spark核心之上有分布式的机器学习,SQL,s...

大数据之路
2015/04/02
0
5

没有更多内容

加载失败,请刷新页面

加载更多

下一页

记elasticdump 备份数据导出导入

版本: elasticsearch 5.5.2 elasticdump 2.2 系统 CentOS7.3 因项目需求 从生产导出一份索引到测试 帮助文档 https://github.com/taskrabbit/elasticsearch-dump?utm_source=dbweekly&utm_m......

雁南飞丶
9分钟前
0
0
saltstack配置目录管理

1.服务端配置 -接着编辑之前的 top.sls 文件 #vim /srv/salt/top.sls //修改为如下 base: 'slaver.test.com': - filedir -新建 filedir.sls 文件 # vim /srv/salt/filedir.sls file-dir: fi......

硅谷课堂
9分钟前
0
0
python日期时间

日期和时间 Python内建的datetime模块提供了datetime、date和time类型。datetime类型结合了date和time,是最常使用的: In [102]: from datetime import datetime, date, timeIn [103]:...

火力全開
16分钟前
0
0
你不了解的v-show

vue指令v-show的使用 1、判断谋个元素是否显示或隐藏 <el-button v-show="list.power == 1" @click="toUpload" class="toUpload" type="primary">去上传<i class="el-icon-upload el-icon--r......

不负好时光
17分钟前
0
0
网站从一万到亿级流量的全景描述

故事的开头 如果你一毕业参见工作就进入了大型互联网公司,那么恭喜你了,你将体验到大公司深厚的技术底蕴以及企业文化。 如果你进入到了一个初创的中小型企业,那么也恭喜你了,你将可能体会...

大大枣
18分钟前
0
0
Tomcat中JAVA JVM内存介绍、内存溢出及合理配置

一、Java JVM内存介绍 JVM管理两种类型的内存,堆和非堆。按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配。堆是在 Java 虚拟机启动时创...

學無止境
18分钟前
0
0
centOS7.4+nginx 1.12.2负载均衡

centOS7.4+nginx 1.12.2负载均衡 2018年04月10日 09:24:51 阅读数:58 1:参数信息 三台 centOS7.4 A,B,C A作为主服务器,B C作为分流的服务器 都搭建 nginx 1.12.2 一:安装 nginx 1:下载...

linjin200
24分钟前
0
0
分布式之抉择分布式锁

前言: 目前网上大部分的基于zookpeer,和redis的分布式锁的文章都不够全面。要么就是特意避开集群的情况,要么就是考虑不全,读者看着还是一脸迷茫。坦白说,这种老题材,很难写出新创意,博...

Java大蜗牛
29分钟前
1
0
rm: cannot remove `xxx’: Operation not permitted

rm: cannot remove `xxx': Operation not permitted可以先用lsattr xxx查看文件的隐藏属性。如果看到-----a-------的情况,可以用chattr -a xxx去除a属性,然后再进行删除就可以了....

殘留回憶
29分钟前
0
0
oracle 如何查看当前用户的表空间名称

如何查询当前用户的表空间名称?因为oracle建立索引,需要知道当前用户的表空间,查找了一下资料 --查询语法-- select default_tablespace from dba_users where username='登录用户' 如,...

youfen
33分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部