Spark RDD

原创
2017/04/06 11:26
阅读数 43

Spark RDD(弹性分布式数据集)

创建RDD

读取文本创建

lines=sc.textFile("READEME.md")

在驱动器程序中对一个集合进行并行化创建

lines = sc.parallelize(["hellp world","hi"])

RDD操作

转化操作:

例如:RDD数据集是{1,2,3,3}

行动操作:

例如:RDD数据集是{1,2,3,3}

 

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部