文档章节

map and flatmap 区别

Faye_Cai
 Faye_Cai
发布于 2016/06/11 21:36
字数 352
阅读 37
收藏 0

map vs flatMap in Spark

September 24, 2014Big Dataexample, spark

In the previous blogs around Spark examples, RDD.flatMap() has been used. In this blog we will look at the differences between RDD.map() and RDD.flatMap().

map and flatMap are similar, in the sense they take a line from the input RDD and apply a function on it. The way they differ is that the function in map returns only one element, while function in flatMap can return a list of elements (0 or more) as an iterator.

Also, the output of the flatMap is flattened. Although the function in flatMap returns a list of elements, the flatMap returns an RDD which has all the elements from the list in a flat way (not a list).

Sounds a bit confusing. In the below code snippet, on the input lines both map and flatMap are applied and output dumped in HDFS to wordsWithMap and wordsWithFlatMap folder.

from pyspark import SparkContext sc = SparkContext("spark://bigdata-vm:7077", "Map") lines = sc.parallelize(["hello world", "hi"]) wordsWithMap = lines.map(lambda line: line.split(" ")).coalesce(1) wordsWithFlatMap = lines.flatMap(lambda line: line.split(" ")).coalesce(1) wordsWithMap.saveAsTextFile("hdfs://localhost:9000/user/bigdatavm/wordsWithMap") wordsWithFlatMap.saveAsTextFile("hdfs://localhost:9000/user/bigdatavm/wordsWithFlatMap")

1

2

3

4

5

6

7

8

9

10

from pyspark import SparkContext

 

sc = SparkContext("spark://bigdata-vm:7077", "Map")

lines = sc.parallelize(["hello world", "hi"])

 

wordsWithMap = lines.map(lambda line: line.split(" ")).coalesce(1)

wordsWithFlatMap = lines.flatMap(lambda line: line.split(" ")).coalesce(1)

 

wordsWithMap.saveAsTextFile("hdfs://localhost:9000/user/bigdatavm/wordsWithMap")

wordsWithFlatMap.saveAsTextFile("hdfs://localhost:9000/user/bigdatavm/wordsWithFlatMap")

 

The output of the map function in HDFSmap-output
The output of the flatMap function in HDFSflatMap-output

Conclusion

The input function to map returns a single element, while the flatMap returns a list of elements (0 or more). And also, the output of the flatMap is flattened.

In the case of word count, where the input line is split into multiple words, flatMap can be used. Also, in the case of weather data set, the extractData nethod will validate the record and might or might not return a value. In this case also, flatMap can be used.

Share this:

本文转载自:http://www.dattamsha.com/2014/09/map-vs-flatmap-spark/

共有 人打赏支持
Faye_Cai
粉丝 0
博文 28
码字总数 5590
作品 0
海淀
高级程序员
私信 提问
RxJava 中的map与flatMap

、map和flatMap都是接受一个函数作为参数(Func1) 2、map函数只有一个参数,参数一般是Func1,Func1的<I,O>I,O模版分别为输入和输出值的类型,实现Func1的call方法对I类型进行处理后返回O类型...

丁佳辉
2018/08/30
0
0
spark快速大数据分析之读书笔记-flatmap与map的区别

以前总是分不清楚spark中flatmap和map的区别,现在弄明白了,总结分享给大家,先看看flatmap和map的定义。 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用...

sucre
2016/02/23
4K
2
spark 的rdd的函数中 flatMap 在项目中的意义和场景作用?

flatMap 与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素来构建新RDD。 举例:对原RDD中的每个元素x产生y个元素(从1到y,y为元...

知行合一1
2017/02/15
96
0
Java 8引入了一个新的Optional类的详细使用

新版本的Java,比如Java 8引入了一个新的Optional类。Optional类的Javadoc描述如下: 这是一个可以为null的容器对象。如果值存在则isPresent()方法会返回true,调用get()方法会返回该对象。 ...

weiliu007
2016/09/13
13
0
swift, Array的高阶函数:flatMap 和 compactMap

flatMap: 对数组的每一个元素做一次处理,返回处理后的数组。 与map的区别是: 返回后的数组中不存在nil, 同时也会把Optional解包。 函数声明: @available(swift, deprecated: 4.1, renam...

小曼Study
01/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Android P DisplayManager多屏相关

Android 多屏相关信息 SurfaceControl.java 里定义了 /** * Built-in physical display id: Main display. * U......

DB_Terrill
23分钟前
3
0
JSBridge 实现机制

概述 在android 中 4.2之前addJavaScriptInterface(),提供给js调用native的方法,存在安全隐患,具体怎么发生的请看这里addJavaScriptInterface 隐患 android 现在基本借助webViewClient中的...

Jack088
26分钟前
1
0
Windows 修改指定盘符指定用户权限

因需求需要使用类似功能从而参考网上其它类似功能改了一下 #include<Windows.h>#include<iostream>#include<WinBase.h>#include<AccCtrl.h>#include<AclAPI.h>#pragma comment(lib,"Ke......

CHONGCHEN
32分钟前
2
0
代码评审常见问题总结【持续更新】

1:如果调用的方法返回值是基本数据类型,接收返回值的变量如果不是必须用包装类,请不要使用包装类进行接收,同理:在一个方法内return基本数据类型,方法返回值不要写包装类。 2:方法的参...

玄影镜心
36分钟前
2
0
深入解读阿里云数据库POLARDB核心功能物理复制技术

本文作者 黄忠(AnySQL) 日志是数据库的重要组成部份,按顺序以增量的方式记录了数据库上所有的操作,日志模块的设计对于数据库的可靠性、稳定性和性能都非常重要。 可靠性方面,在有一个数...

阿里云云栖社区
38分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部