文档章节

Spark(Storage)

赵-猛
 赵-猛
发布于 2017/06/17 11:57
字数 662
阅读 7
收藏 0

存储管理

    diskstore
    memorystore


一大组件

  BlockManager

 

消息通信(Actor模型)

    master(BlockManager) to slave(BlockManager)
    slave(BlockManager) to master(BlockManager)


    
RDD/Block

  在调度层, RDD由多个partition/bucket构成
  在存储层, RDD又是以block为单位进行存取,
     对于DiskStore,则一个blcok一个物理文件,再由hash map管理id和路径
     对于MemoryStore,则直接由HashMap管理id和block
  在task的rdd.iterator()中,即partition/bucket要进行运算时,会处理通过BlockManager管理block

  (rdd的partition和block为一一对应)

 

spark 中的block是rdd在被task执行之前,其基本组成partition被blockManage映射而来的一种抽象
spark 中,在storage模块里面所有的操作都是和block相关的,但是在RDD里面所有的运算都是基于partition的
如果当前RDD的storage level不是NONE的话,表示该RDD在BlockManager中有存储,那么调用CacheManager中的getOrCompute()函数计算RDD,
在这个函数中partition和block发生了关系:
  首先根据RDD id和partition index构造出block id (rdd_xx_xx),接着从BlockManager中取出相应的block
需要注意的是block的计算和存储是阻塞的,若另一线程也需要用到此block则需等到该线程block的loading结束

(hdfs 中的 block 是存储的最小单元)

spark中的RDD-Cache, Shuffle-output, 以及broadcast的实现都是基于BlockManager来实现, BlockManager提供了数据存储(内存/文件存储)接口.
这里的Block和HDFS中谈到的Block块是有本质区别:
  HDFS中是对大文件进行分Block进行存储,Block大小固定为512M等;
  Spark中的Block是用户的操作单位, 一个Block对应一块有组织的内存,一个完整的文件或文件的区间端,并没有固定每个Block大小的做法;
  
(hdfs 中的 block 是存储的最小单元)

trait BlockDataManager {
  def getBlockData(blockId: String): Option[ManagedBuffer]
  def putBlockData(blockId: String, data: ManagedBuffer, level: StorageLevel): Unit
}

Spark中Block类型

    RDDBlock:"rdd_" + rddId + "_" + splitIndex; 即每个RDD block表示一个特定rdd的一个分片
    ShuffleBlock:关于shuffle,在Spark的1.1版本中发布一个sort版本的shuffle,原先的版本为hash,因此两种类型的shuffle也对应了两种数据结构
        Hash版本,ShuffleBlock:"shuffle_" + shuffleId + "" + mapId + "" + reduceId
        Sort版本,对于每一个bucket(shuffleId + "" + mapId + "" + reduceId组合)由ShuffleDataBlock和ShuffleIndexBlock两种block组成
            "shuffle_" + shuffleId + "" + mapId + "" + reduceId + ".data"
            "shuffle_" + shuffleId + "" + mapId + "" + reduceId + ".index"
    BroadcastBlock:"broadcast_" + broadcastId + "_" + field)
    TaskResultBlock:"taskresult_" + taskId;Spark中task运行的结果也是通过BlockManager进行管理
    StreamBlock: "input-" + streamId + "-" + uniqueId应该是用于streaming中
    TempBlock: "temp_" + id

 

© 著作权归作者所有

上一篇: Spring(Bom)
下一篇: Spark(Scheduler)
赵-猛
粉丝 6
博文 820
码字总数 500010
作品 0
深圳
技术主管
私信 提问
【Spark】Spark 核心架构原理

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/gongxifacai_believe/article/details/86709783 1、BDAS: Berkeley Data Analytics Stack 2、Spark和MapReduce的对比......

魏晓蕾
01/31
0
0
Apache Spark 统一内存管理模型详解

本文将对 Spark 的内存管理模型进行分析,下面的分析全部是基于 Apache Spark 2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(Unifie...

Spark
2018/04/02
0
0
Apache Zeppelin 0.6.2 发布

Apache Zeppelin 0.6.2 发布了,更新内容如下: 改进 Spark interpreter binary is compatibile with Spark 1.6/Scala 2.10 and Spark 2.0/Scala 2.11 without rebuild Note storage aware ......

局长
2016/10/18
1K
1
[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情

本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM ...

hblt-j
2017/11/08
65
0
Comprehensive Introduction to Apache Spark

Introduction Industry estimates that we are creating more than 2.5 Quintillion bytes of data every year. Think of it for a moment – 1 Qunitillion = 1 Million Billion! Can you i......

grasp_D
2018/06/15
8
0

没有更多内容

加载失败,请刷新页面

加载更多

只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
昨天
59
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
昨天
28
0
全世界到底有多少软件开发人员?

埃文斯数据公司(Evans Data Corporation) 2019 最新的统计数据(原文)显示,2018 年全球共有 2300 万软件开发人员,预计到 2019 年底这个数字将达到 2640万,到 2023 年达到 2770万。 而来自...

红薯
昨天
65
0
Go 语言基础—— 通道(channel)

通过通信来共享内存(Java是通过共享内存来通信的) 定义 func service() string {time.Sleep(time.Millisecond * 50)return "Done"}func AsyncService() chan string {retCh := mak......

刘一草
昨天
58
0
Apache Flink 零基础入门(一):基础概念解析

Apache Flink 的定义、架构及原理 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速...

Vincent-Duan
昨天
60
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部