文档章节

spark

MtrS
 MtrS
发布于 2016/04/14 22:20
字数 427
阅读 139
收藏 0

精选30+云产品,助力企业轻松上云!>>>

http://central.maven.org/maven2/org/apache/spark/spark-streaming-kafka_2.10/1.6.1/spark-streaming-kafka_2.10-1.6.1.jar

spark 2.0.1 发布说明: http://www.iteye.com/news/31875

http://blog.selfup.cn/category/apache-spark

触发 shuffle 的 spark 运算u函数

Spark学习笔记 --- 触发Shuffle的算子和操作

1.去重:

def distinct()
def distinct(numPartitions: Int)

2.聚合:

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]
def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]
def groupBy[K](f: T => K, p: Partitioner):RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner):RDD[(K, Iterable[V])]
def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner): RDD[(K, U)]
def aggregateByKey[U: ClassTag](zeroValue: U, numPartitions: Int): RDD[(K, U)]
def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]
def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C, numPartitions: Int): RDD[(K, C)]
def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C, partitioner: Partitioner, mapSideCombine: Boolean = true, serializer: Serializer = null): RDD[(K, C)]

3.排序:

def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length): RDD[(K, V)]
def sortBy[K](f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

4.重分区:

def coalesce(numPartitions: Int, shuffle: Boolean = false, partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null)

5.集合或者表操作

def intersection(other: RDD[T]): RDD[T]
def intersection(other: RDD[T], partitioner: Partitioner)(implicit ord: Ordering[T] = null): RDD[T]
def intersection(other: RDD[T], numPartitions: Int): RDD[T]
def subtract(other: RDD[T], numPartitions: Int): RDD[T]
def subtract(other: RDD[T], p: Partitioner)(implicit ord: Ordering[T] = null): RDD[T]
def subtractByKey[W: ClassTag](other: RDD[(K, W)]): RDD[(K, V)]
def subtractByKey[W: ClassTag](other: RDD[(K, W)], numPartitions: Int): RDD[(K, V)]
def subtractByKey[W: ClassTag](other: RDD[(K, W)], p: Partitioner): RDD[(K, V)]
def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]
def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]
def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))]
def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]

https://blog.csdn.net/u012965373/article/details/100044452

MtrS
粉丝 35
博文 1043
码字总数 695323
作品 0
榆林
私信 提问
加载中
请先登录后再评论。
Apache Spark 1.6.2 发布,集群计算环境

Apache Spark 1.6.2 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句...

愚_者
2016/06/28
3.9K
1
Spark源码分析系列(目录)

记录自己学习研究 Spark 的探索过程,为后续总结奠定基础。 本文代码研究以 Spark 2.3.0 源代码为基准,如果看本文,请阅读时,下载对应的 Spark 版本。 图1 伯克利的数据分析软件栈BDAS(B...

虾皮
2018/03/20
0
0
spark安装和提交程序测试

安装 1.1. 下载spark安装包 下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-1.6.2-bin-hadoop2.6版本. 1.2. 规划安装目录 /opt/bigdata 1.3. 解压安装包 ta...

osc_6zu0q9s3
2018/03/02
2
0
Spark的介绍:前世今生

spark的 前世今生 标签(空格分隔): Spark的部分 一: 大数据的概述 1.1 Spark是什么? ·容易上手开发:Spark的基于RDD的计算模型,比Hadoop的基于Map-Reduce的计算模型要更加易于理解,更...

flyfish225
2018/05/07
0
0
Spark的介绍:前世今生

spark的 前世今生 标签(空格分隔): Spark的部分 一: 大数据的概述 1.1 Spark是什么? ·容易上手开发:Spark的基于RDD的计算模型,比Hadoop的基于Map-Reduce的计算模型要更加易于理解,更...

flyfish225
2018/05/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

MetadataException:无法加载指定的元数据资源 - MetadataException: Unable to load the specified metadata resource

问题: All of a sudden I keep getting a MetadataException on instantiating my generated ObjectContext class. 突然间,我在实例化生成的ObjectContext类时不断收到MetadataException 。......

fyin1314
58分钟前
8
0
如何使用Java获取当前日期/时间 - How to get the current date/time in Java

问题: 用Java获取当前日期/时间的最佳方法是什么? 解决方案: 参考一: https://stackoom.com/question/LiRU/如何使用Java获取当前日期-时间 参考二: https://oldbug.net/q/LiRU/How-to-g...

富含淀粉
今天
14
0
SUSE收购Rancher Labs:押注云原生市场

导读:Gartner预测,到2024年,成熟的经济体中采用云原生应用程序和基础架构将使容器管理的使用率超过75%的大型企业,而2020年还不到35%。 7月8日,全球最大的独立开源公司SUSE获得收购Ran...

开源村OSV
今天
19
0
一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

本文作者:杨蕊1002 飞桨(PaddlePaddle)是国内唯一功能完备的端到端开源深度学习平台,集深度学习训练和预测框架、模型库、工具组件、服务平台为一体,其兼具灵活和效率的开发机制、工业级...

百度开发者中心
2019/07/17
16
0
Emacs和Vim之间的差异 - Differences between Emacs and Vim

问题: Without getting into a religious argument about why one is better than the other, what are the practical differences between Emacs and Vim? 在没有就为什么一个比另一个更好......

法国红酒甜
今天
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部