加载中
剖析Hadoop和Spark的Shuffle过程差异(二)

上一篇博客《剖析Hadoop和Spark的Shuffle过程差异(一)》剖析了Hadoop MapReduce的Shuffle过程,那么本篇博客,来聊一聊Spark shuffle。 Spark shuffle相对来说更简单,因为不要求全局有序,...

2019/03/12 23:22
3K
Spark RDD操作之Map系算子

本篇博客将介绍Spark RDD的Map系算子的基本用法。 1、map map将RDD的元素一个个传入call方法,经过call方法的计算之后,逐个返回,生成新的RDD,计算之后,记录数不会缩减。示例代码,将每个...

2019/03/07 20:12
6K
剖析Hadoop和Spark的Shuffle过程差异(一)

一、前言 对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一...

2019/03/05 23:33
1.4W
Spark RDD操作之ReduceByKey

一、reduceByKey作用 reduceByKey将RDD中所有K,V对中,K值相同的V进行合并,而这个合并,仅仅根据用户传入的函数来进行,下面是wordcount的例子。 import java.util.Arrays; import java.uti...

2019/03/04 19:49
2.3W

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部