文档章节

Spark: SchemaRDD隐式转换

Ryan-瑞恩
 Ryan-瑞恩
发布于 2015/03/11 22:15
字数 577
阅读 57
收藏 0

SchemaRDD在Spark SQL中已经被我们使用到,这篇文章简单地介绍一下如果将标准的RDD(org.apache.spark.rdd.RDD)转换成SchemaRDD,并进行SQL相关的操作。

0

  这是因为people是普通的RDD,而registerTempTable函数不属于RDD类,只有通过SchemaRDD的实例才可以调用,所以这么调用会出现错误,解决办法有两个:
  (1)registerTempTable函数是SQLContext类中的,所以我们可以将people转换成SchemaRDD,如下:

01	/**
02	 * User: 过往记忆
03	 * Date: 14-12-16
04	 * Time: 下午10:16
05	 * bolg: http://www.iteblog.com
06	 * 本文地址:http://www.iteblog.com/archives/1224
07	 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
08	 * 过往记忆博客微信公共帐号:iteblog_hadoop
09	 */
10	scala> val peopleSchema =sqlContext.createSchemaRDD(people)
11	peopleSchema:org.apache.spark.sql.SchemaRDD =
12	SchemaRDD[29] at RDD at SchemaRDD.scala:103
13	==Query Plan ==
14	==Physical Plan ==
15	ExistingRdd [name#4,age#5], MapPartitionsRDD[28] at
16	 mapPartitions at basicOperators.scala:217
17	 
18	scala> peopleSchema.registerTempTable("people")
19	warning:there were 1deprecation warning(s); re-run with-deprecation fordetails


  这么调用就可以将people转成SchemaRDD。
  (2)、上面的方法是通过显示地调用sqlContext.createSchemaRDD将普通的RDD转成SchemaRDD。其实我们还可以通过Scala的隐式语法来进行转换。我们先来看看createSchemaRDD函数的定义

1	/**
2	* Creates a SchemaRDD from an RDD of case classes.
3	*
4	* @group userf
5	*/
6	implicitdefcreateSchemaRDD[A <:Product:TypeTag](rdd:RDD[A]) ={
7	    SparkPlan.currentContext.set(self)
8	    newSchemaRDD(this, SparkLogicalPlan(ExistingRdd.fromProductRdd(rdd))(self))
9	}

  在定义createSchemaRDD的时候用到了implicit 关键字,所以我们在使用的时候可以通过下面语句使用

1	scala> import sqlContext.createSchemaRDD
2	import sqlContext.createSchemaRDD
3	 
4	scala> people.registerAsTable("people")
5	warning:there were 1deprecation warning(s); re-run with-deprecation fordetails

  这样就隐身地将people转换成SchemaRDD了。这是因为Spark可以隐式地将包含case class的RDD转换成SchemaRDD。

  关于什么是SchemaRDD,官方文档将的很详细:
  An RDD of [[Row]] objects that has an associated schema. In addition to standard RDD functions, SchemaRDDs can be used in relational queries。也就是包含了Row对象以及模式的RDD。它继承自标准的RDD类,所以拥有标准RDD类的所有方法;并且可以用于关系性数据库的查询在中。

本文转载自:http://www.iteblog.com/archives/1224

共有 人打赏支持
Ryan-瑞恩

Ryan-瑞恩

粉丝 150
博文 230
码字总数 180543
作品 0
西安
后端工程师
私信 提问
基于spark1.3.1的spark-sql实战-01

sqlContext总的一个过程如下图所示: SQL语句经过SqlParse解析成UnresolvedLogicalPlan; 使用analyzer结合数据数据字典(catalog)进行绑定,生成resolvedLogicalPlan; 使用optimizer对res...

stark_summer
2015/05/19
0
0
[Spark]Spark RDD 指南一 引入Spark

2.3.0版本:Spark2.3.0 引入Spark 1. Java版 Spark 2.1.1适用于Java 7及更高版本。 如果您使用的是Java 8,则Spark支持使用lambda表达式来简洁地编写函数,否则可以使用org.apache.spark.ap...

sjf0115
2017/06/08
0
0
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地...

Spark亚太研究院
2014/08/29
0
0
Spark2.1.0之基础知识

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/80303035 在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》一文,本文...

泰山不老生
05/24
0
0
[Kafka与Spark集成系列四] Spark运行结构

版权声明:本文为博主原创文章,未经博主朱小厮允许不得转载。 https://blog.csdn.net/u013256816/article/details/82082146 在分布式环境下,Spark集群采用的是主从架构。如下图所示,在一个...

朱小厮
08/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

防御CSRF攻击

跨站请求伪造(CSRF)是一种安全漏洞,攻击者利用受害者的 session 来通过受害者的浏览器发出请求。攻击者通过受害者的浏览器发送请求,并伪造成是受害者自己发出的请求。 建议你先熟悉CSRF,...

Landas
22分钟前
0
0
【双12首发】终于等来了!PhalApi-iView-admin 开源后台框架

PhalApi-iView-admin 开源后台框架 码云地址:https://gitee.com/dogstar/phalapi-iview-admin Github地址:https://github.com/phalapi/phalapi-iview-admin 主要采用的技术: PhalApi 开源......

暗夜在火星
23分钟前
0
0
JavaScript面试题大坑之隐式类型转换实例代码

1.1-隐式转换介绍 在js中,当运算符在运算时,如果两边数据不统一,CPU就无法计算,这时我们编译器会自动将运算符两边的数据做一个数据类型转换,转成一样的数据类型再计算 这种无需程序员手...

peakedness丶
25分钟前
0
0
示例vue 的keep-alive缓存功能的实现

本篇文章主要介绍了vue 的keep-alive缓存功能的实现,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下。如有不足之处,欢迎批评指正。 #Vue 实现组件信息的缓存 当...

前端攻城老湿
26分钟前
0
0
解析Vue.js中的computed工作原理

我们通过实现一个简单版的和Vue中computed具有相同功能的函数来了解computed是如何工作的。写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下。如有不足之处,欢迎批...

前端攻城小牛
28分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部