rdd的partition既然是不可控

原创
2017/03/22 15:35
阅读数 47

spark中的partion是弹性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的,这也是为什么叫“弹性分布式”数据集的原因之一。

rdd的partition既然是不可控,可以根据算子与最初读入时动态设定,哪么像类似的mapWith,zipPartition之类的与partition的index相关的算子有存在的意义吗?

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部