Spark API编程动手实战-05-spark文件操作和debug
Spark API编程动手实战-05-spark文件操作和debug
stark_summer 发表于3年前
Spark API编程动手实战-05-spark文件操作和debug
  • 发表于 3年前
  • 阅读 78
  • 收藏 1
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

摘要: Spark API编程动手实战-05-spark文件操作和debug

这次 我们以指定executor-memory参数的方式来启动spark-shell:



启动成功了


在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:



从hdfs上读取文件:



在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:


可以看出MappedRDD是从HadoopRDD转换而来的

再看下textFile的源代码:



hadoopFile这个方法返回的是一个HadoopRDD,源码如下所示:



而map方法产生的是一个MappedRDD:



下面进行一个简单的wordcount操作:


执行结果:


再次使用toDebugString,查看下依赖关系:


HadoopRDD -> MappedRDD -> FlatMappedRDD ->  MappedRDD -> ShuffledRDD 

共有 人打赏支持
粉丝 60
博文 75
码字总数 51050
×
stark_summer
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: