Spark API编程动手实战-07-join操作深入实战
Spark API编程动手实战-07-join操作深入实战
stark_summer 发表于3年前
Spark API编程动手实战-07-join操作深入实战
  • 发表于 3年前
  • 阅读 42
  • 收藏 1
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

摘要: Spark API编程动手实战-07-join操作深入实战

我们在hdfs的/data/join创建两个文件:


上传第一个文件名称为1.txt

内容第一列是日期,第二列uid(普通用户id)


上传第二个文件名称为2.txt

内容第一列是日期,第二列uid(普通用户id)


执行上传到hdfs:


hdfs命令行查询:


web控制台管理查询:


首先在命令行中设置日期格式:


然后声明两个case class:Register、Login


读取第一个文件(1.txt)并进行操作:



take操作:



该操作是首先读取文件的内容,然后以Tab键进行分词,然后以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值;


读取第二个文件(2.txt)并进行操作:


take操作:



下面对文件执行join操作:


取出join操作的结果:


take结果:



或者把执行结果保存到HDFS:


到Web控制台上查看执行结果:




在hdfs查看一下其执行结果:



共有 人打赏支持
粉丝 60
博文 75
码字总数 51050
×
stark_summer
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: