文档章节

Spark Streaming(2):Join

Joe_Wu
 Joe_Wu
发布于 2017/08/08 16:48
字数 306
阅读 18
收藏 0
package com.pyrrha.examples;

import java.util.ArrayList;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.Optional;

import scala.Tuple2;

public class JoinTransformation {
	
	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setAppName("TransformationTest").setMaster("local");
		JavaSparkContext sc = new JavaSparkContext(conf);
		
		join(sc);
		
		sc.close();
	}
	/**
	 * @return:
	    ListA:
		[(name,Jos), (name,Marry), (name1,Tom)]
	    ListB
		[(name,Jos), (name,Black), (name2,David)]
		
		-----------------join-------------------
		[(name,(Jos,Jos)), (name,(Jos,Black)), (name,(Marry,Jos)), (name,(Marry,Black))]
		
		-----------------leftOuterJoin-------------------
		[(name,(Jos,Optional[Jos])), (name,(Jos,Optional[Black])), (name,(Marry,Optional[Jos])), (name,(Marry,Optional[Black])), (name1,(Tom,Optional.empty))]
		
		-----------------rightOuterJoin-------------------
		[(name,(Optional[Jos],Jos)), (name,(Optional[Jos],Black)), (name,(Optional[Marry],Jos)), (name,(Optional[Marry],Black)), (name2,(Optional.empty,David))]
		
		-----------------fullOuterJoin-------------------
		[(name,(Optional[Jos],Optional[Jos])), (name,(Optional[Jos],Optional[Black])), (name,(Optional[Marry],Optional[Jos])), (name,(Optional[Marry],Optional[Black])), (name2,(Optional.empty,Optional[David])), (name1,(Optional[Tom],Optional.empty))]
	 * @param sc
	 */
	public static void join(JavaSparkContext sc) {
		List<Tuple2<String, String>> listA = new ArrayList<Tuple2<String, String>>();
		listA.add(new Tuple2<String, String>("name","Jos"));
		listA.add(new Tuple2<String, String>("name","Marry"));
		listA.add(new Tuple2<String, String>("name1","Tom"));
		List<Tuple2<String, String>> listB = new ArrayList<Tuple2<String, String>>();
		listB.add(new Tuple2<String, String>("name","Jos"));
		listB.add(new Tuple2<String, String>("name","Black"));
		listB.add(new Tuple2<String, String>("name2","David"));
		
		JavaPairRDD<String, String> RDDA = sc.parallelizePairs(listA);
		JavaPairRDD<String, String> RDDB = sc.parallelizePairs(listB);
		System.out.println("-----------------data-------------------");
		System.out.println("ListA:");
		System.out.println(RDDA.collect());
		System.out.println("\n");
		System.out.println("ListB");
		System.out.println(RDDB.collect());
		System.out.println("\n");
		
		
		JavaPairRDD<String, Tuple2<String, String>> RDDC = RDDA.join(RDDB);
		System.out.println("-----------------join-------------------");
		System.out.println(RDDC.collect());
		System.out.println("\n");
		
		JavaPairRDD<String, Tuple2<String, Optional<String>>> RDDD = RDDA.leftOuterJoin(RDDB);
		System.out.println("-----------------leftOuterJoin-------------------");
		System.out.println(RDDD.collect());
		System.out.println("\n");
		
		JavaPairRDD<String, Tuple2<Optional<String>, String>> RDDE = RDDA.rightOuterJoin(RDDB);
		System.out.println("-----------------rightOuterJoin-------------------");
		System.out.println(RDDE.collect());
		System.out.println("\n");
		
		JavaPairRDD<String, Tuple2<Optional<String>, Optional<String>>> RDDF = RDDA.fullOuterJoin(RDDB);
		System.out.println("-----------------fullOuterJoin-------------------");
		System.out.println(RDDF.collect());
		System.out.println("\n");
		
	}
	
	
	

}

 

© 著作权归作者所有

共有 人打赏支持
Joe_Wu
粉丝 1
博文 9
码字总数 6567
作品 0
徐汇
程序员
私信 提问
Apache Spark 2.4.0 正式发布

Apache Spark 2.4 与昨天正式发布,Apache Spark 2.4 版本是 2.x 系列的第五个版本。 如果想及时了解 Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号: itebloghadoop Apache Spa...

Spark
11/09
0
0
[Spark]Spark Streaming 指南一 Example

1. 概述 Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等许多源中提取,并且...

sjf0115
2017/03/01
0
0
Spark cluster 部署

Spark 框架 Spark与Storm的对比 对于Storm来说: 1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析 2、此外,如果对于实时计算的...

meteor_hy
06/27
0
0
Spark(五) -- Spark Streaming介绍与基本执行过程

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/45770881 Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重...

jchubby
2015/05/16
0
0
Spark 2.0 时代全面到来 —— 2.0.1 版本发布

距离Spark 2.0.0发布两个月后,Spark 2.0.1版本发布了,这是一个修正版本,共处理了300多个Issue,涉及spark稳定性和bug等方面的修复 ,它的发布意味着Spark 2.0接近生产环境使用要求,想要尝...

达尔文
2016/10/08
13.1K
22

没有更多内容

加载失败,请刷新页面

加载更多

缓存穿透,缓存雪崩的四种解决方案

前言 设计一个缓存系统,不得不要考虑的问题就是:缓存穿透、缓存击穿与失效时的雪崩效应。 缓存穿透 缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑...

小致dad
10分钟前
0
0
PHP 文字生成透明图片之路

摘要:在现在的开发中会经常运用到生成图片的功能,常用的验证码生成等。PHP语言生成图片需要用到GD2功能模块,所以基本的图片,图形处理都是没什么压力滴。 准备: 1、打开GD2模块,在php.i...

昙花一现
11分钟前
0
0
impala系列: 基本命令和jdbc连接

--======================= 使用impala-shell 登录 --======================= impala-shell --auth_creds_ok_in_clear -l -i ip_address -u user_name --======================= JDBC dri......

hblt-j
12分钟前
0
0
CSS实例详解:Flex布局

本文由云+社区发表 本文将通过三个简单的实例,实际应用上篇文章的基础理论知识,展示下Flex布局是如何解决CSS布局问题。 一.垂直居中 这里同时用非flex布局和flex布局两种方式来实现,可以...

腾讯云加社区
18分钟前
1
0
安装全局webpack

https://www.jianshu.com/p/119a825d8bba npm ls webpack 和npm ls webpack -g 查看本地和全局版本 npm install webpack@1.15.0 -g 全局 然后到项目里面 npm install npm init npm install w......

lsy999
30分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部