加载中
RDD源码分析:ClosureCleaner

最近在看spark的源码,发现好多rdd如:map,flatMap,filter等rdd中都有一段相同的代码: val cleanF = sc.clean(f) 当时就很疑惑,为什么都有这段代码,rdd的逻辑又不是一样的,于是,继续往...

2018/08/30 17:54
304
spark action 算子

action算子为执行算子,触发Spark作业的运行,真正触发转换算子的计算 1.reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做...

2018/08/14 14:09
47
spark Transformation 转换算子

1、map map是对RDD中的每个元素都执行一个指定的函数(func 传进来的逻辑)处理之后来产生一个新的RDD(注意:不是每个元素产生一个新的RDD,而是一起产生一个新的RDD)。任何原RDD中的元素在新...

2018/08/14 14:07
194
spark 提交任务详细过程

1、spark submit后都需要action算子来触发作业,观察源码,发现所有的action算子都会调用SparkContext的runJob的方法,以collect为例: collect调用了SparkContext的runJob方法: /** * 返回...

2018/08/08 18:31
1.4K
hive介绍

1、hive的作用: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成...

2017/02/22 19:24
70

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部