文档章节

Spark core基础

张泽立
 张泽立
发布于 08/20 21:46
字数 367
阅读 1
收藏 0

Spark

RDD的五大特性

  1. RDD是由一系列的Partition组成的,如果Spark计算的数据是在HDFS上那么partition个数是与block数一致(大多数情况)
  2. RDD是有一系列的依赖关系,有利于Spark计算的容错
  3. RDD中每一个算子实际上是作用在每一个partition的
  4. spark中分区器是作用在kv格式的RDD上的,如果这个RDD中存储的数据是二元组类型的话
  5. spark中的RDD会提供一系列的最佳位子

大概执行流程

Driver

  1. 分发task,实际上在分发task之前会调用RDD的一个方法(