文档章节

Spark API编程动手实战-07-join操作深入实战

stark_summer
 stark_summer
发布于 2015/02/05 14:39
字数 285
阅读 47
收藏 1

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

我们在hdfs的/data/join创建两个文件:


上传第一个文件名称为1.txt

内容第一列是日期,第二列uid(普通用户id)


上传第二个文件名称为2.txt

内容第一列是日期,第二列uid(普通用户id)


执行上传到hdfs:


hdfs命令行查询:


web控制台管理查询:


首先在命令行中设置日期格式:


然后声明两个case class:Register、Login


读取第一个文件(1.txt)并进行操作:



take操作:



该操作是首先读取文件的内容,然后以Tab键进行分词,然后以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值;


读取第二个文件(2.txt)并进行操作:


take操作:



下面对文件执行join操作:


取出join操作的结果:


take结果:



或者把执行结果保存到HDFS:


到Web控制台上查看执行结果:




在hdfs查看一下其执行结果:



© 著作权归作者所有

stark_summer
粉丝 61
博文 75
码字总数 51050
作品 0
朝阳
CEO
私信 提问
加载中

评论(0)

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地...

Spark亚太研究院
2014/08/29
1.7K
0
spark 学习路线及参考课程

一、Scala编程详解: 第1讲-Spark的前世今生 第2讲-课程介绍、特色与价值 第3讲-Scala编程详解:基础语法 第4讲-Scala编程详解:条件控制与循环 第5讲-Scala编程详解:函数入门 第6讲-Scala编...

osc_s5wa3ebb
2018/05/07
24
0
Spark常用算子详解汇总 : 实战案例、Java版本、Scala版本

官网API地址: JavaRDD:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.api.java.JavaRDD JavaPairRDD:http://spark.apache.org/docs/latest/api/scala/ind......

生命不息丶折腾不止
03/31
0
0
【Spark】SparkStreaming-流处理-规则动态更新-解决方案

SparkStreaming-流处理-规则动态更新-解决方案 image2017-10-2711-10-53.png (1067×738) elasticsearch-head Elasticsearch-sql client spark streaming reload百度搜索 基于spark streami......

osc_qvqynsub
2018/01/11
15
0
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!

2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍 清华大学出版社发行上市! 本书基于Spark 2.2.0新版本,以Spark商业案例实战和Spark在生产环境...

段智华
03/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

kafka重要概念与集群重点配置详解

重要概念 broker 一个broker就是一个kafka实例,负责接收、转发、存储消息,kafka集群就是由多个broker组成。 topic kafka的topic是一个逻辑概念,就是对消息分组、分类,便于区分处理不同业...

trayvon
25分钟前
42
0
在树莓派里搭建 Lighttpd 服务器

Lighttpd 像 Ngnix 一样,是被设计运行在低内存,低 CPU 负载的设备上,它们都非常适合在树莓派上运行。 本文将介绍如何在树莓派上运行基本配置的 Lighttpd ,以及如何与 PHP-FRM 一起使用。...

良许Linux
25分钟前
10
0
Service Mesh 高可用在企业级生产中的实践 | 线上直播回顾

Service Mesh Virtual Meetup 是 ServiceMesher 社区和 CNCF 联合主办的线上系列直播。本期为 Service Mesh Virtual Meetup#1 ,邀请了四位来自不同公司的嘉宾,从不同角度展开了 Service Me...

SOFAStack
34分钟前
34
0
word转pdf软件有哪些?word转pdf软件怎么操作?

虽说日常生活中,很多人写报告写策划都依然会使用word程序,但是严格来说,word却并非是唯一常用的办公软件,就比如说pdf,就越来越受年轻人的欢迎了,那么经常用电脑办公的你是否知道,其实...

开源86
48分钟前
39
0
Java创建对象的过程(类实例化)

1.检查类是否被加载。 当虚拟机遇到new指令后,会先去常量池检查有没有该类的符号引用,并且检查这个类有没有进行加载、解析、初始化过,没有就先执行类加载过程。 2.为对象分配内存空间*。 ...

曦鱼violet
53分钟前
26
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部