加载中
spark相关文章

spark相关文章 spark 重新分区 repartition和coalescehttps://my.oschina.net/u/2969788/blog/2875636 spark的宽依赖和窄依赖https://my.oschina.net/u/2969788/blog/2870446 spark原理和概念...

spark 内存管理总结

spark 内存管理总结 spark内存分为 on-heap和off-heap,堆内内存和堆外内存 堆外内存,会把数据序列化之后写入jvm内存之外,但是需要单独编码申请资源和释放资源一般不怎么样用 堆内内存,在jvm...

spark shuffleManager学习记录

spark shufflemananger hashShuffleManager spark1.2之后已经废弃了,除了面试官会问问没啥用,以前可以配置选择shuffleManager的具体实现,现在已经全部默认SortShuffleManager SortShuffleMan...

05/15 15:40
25
spark join和union+reducebykey 对比

spark join和union+reducebykey 对比 对于某些聚合需求可以用union+reducebykey的方式替换join,join将会做两个表的连接操作比较消耗新能,union+reducebykey,可以在map的端进行预聚合,然后再r...

2019/08/20 11:19
132
spark为什么比MapReduce快

spark为什么比MapReduce快 spark task启动时间快,因为spark采用fork线程的方式,而Hadoop每次都创建新的进程 spark只有在shuffle的时候才将数据写入磁盘,Hadoop MapReduce多个mp作业之间交换数...

2018/12/03 15:16
144
spark 重新分区 repartition和coalesce

spark 重新分区 repartition和coalesce spark 重新分区的优势 对于给定RDD只需要扫描一次的情况 重新分区没有任何好处 类似于 join() groupbykey() reducebykey() 这样的操作都会受益 repara...

2018/11/13 17:38
3.9K
spark 数据倾斜问题

spark数据倾斜问题 数据倾斜问题的描述 在Spark中,同一个Stage的不同Partition可以并行处理,而具有依赖关系的不同Stage之间是串行处理的。假设某个Spark Job分为Stage 0和Stage 1两个Stage...

2017/04/21 17:29
12

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部