文档章节

Spark: SchemaRDD隐式转换

Ryan-瑞恩
 Ryan-瑞恩
发布于 2015/03/11 22:15
字数 577
阅读 352
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

SchemaRDD在Spark SQL中已经被我们使用到,这篇文章简单地介绍一下如果将标准的RDD(org.apache.spark.rdd.RDD)转换成SchemaRDD,并进行SQL相关的操作。

0

  这是因为people是普通的RDD,而registerTempTable函数不属于RDD类,只有通过SchemaRDD的实例才可以调用,所以这么调用会出现错误,解决办法有两个:
  (1)registerTempTable函数是SQLContext类中的,所以我们可以将people转换成SchemaRDD,如下:

01	/**
02	 * User: 过往记忆
03	 * Date: 14-12-16
04	 * Time: 下午10:16
05	 * bolg: http://www.iteblog.com
06	 * 本文地址:http://www.iteblog.com/archives/1224
07	 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
08	 * 过往记忆博客微信公共帐号:iteblog_hadoop
09	 */
10	scala> val peopleSchema =sqlContext.createSchemaRDD(people)
11	peopleSchema:org.apache.spark.sql.SchemaRDD =
12	SchemaRDD[29] at RDD at SchemaRDD.scala:103
13	==Query Plan ==
14	==Physical Plan ==
15	ExistingRdd [name#4,age#5], MapPartitionsRDD[28] at
16	 mapPartitions at basicOperators.scala:217
17	 
18	scala> peopleSchema.registerTempTable("people")
19	warning:there were 1deprecation warning(s); re-run with-deprecation fordetails


  这么调用就可以将people转成SchemaRDD。
  (2)、上面的方法是通过显示地调用sqlContext.createSchemaRDD将普通的RDD转成SchemaRDD。其实我们还可以通过Scala的隐式语法来进行转换。我们先来看看createSchemaRDD函数的定义

1	/**
2	* Creates a SchemaRDD from an RDD of case classes.
3	*
4	* @group userf
5	*/
6	implicitdefcreateSchemaRDD[A <:Product:TypeTag](rdd:RDD[A]) ={
7	    SparkPlan.currentContext.set(self)
8	    newSchemaRDD(this, SparkLogicalPlan(ExistingRdd.fromProductRdd(rdd))(self))
9	}

  在定义createSchemaRDD的时候用到了implicit 关键字,所以我们在使用的时候可以通过下面语句使用

1	scala> import sqlContext.createSchemaRDD
2	import sqlContext.createSchemaRDD
3	 
4	scala> people.registerAsTable("people")
5	warning:there were 1deprecation warning(s); re-run with-deprecation fordetails

  这样就隐身地将people转换成SchemaRDD了。这是因为Spark可以隐式地将包含case class的RDD转换成SchemaRDD。

  关于什么是SchemaRDD,官方文档将的很详细:
  An RDD of [[Row]] objects that has an associated schema. In addition to standard RDD functions, SchemaRDDs can be used in relational queries。也就是包含了Row对象以及模式的RDD。它继承自标准的RDD类,所以拥有标准RDD类的所有方法;并且可以用于关系性数据库的查询在中。

本文转载自:http://www.iteblog.com/archives/1224

Ryan-瑞恩

Ryan-瑞恩

粉丝 153
博文 245
码字总数 189663
作品 0
西安
后端工程师
私信 提问
加载中

评论(0)

Spark SQL的介绍和DataFrame的建立及使用

Spark SQL定位处理结构化数据的模块。SparkSQL提供相应的优化机制,并支持不同语言的开发API。 java、scala、Python,类SQL的方法调用(DSL) 2. RDD与Spark SQL的比较说明:   使用Spark...

osc_rreaoxa0
2018/12/31
1
0
Spark2.x学习笔记:Spark SQL程序设计

1、RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。 RDD需要用户自己优化程序,对程序员要求较高。 从不同数据源读取数据相对困难。 合并多个数据源中的数据也较困...

osc_4l0h8in9
2018/07/02
2
0
基于spark1.3.1的spark-sql实战-01

sqlContext总的一个过程如下图所示: SQL语句经过SqlParse解析成UnresolvedLogicalPlan; 使用analyzer结合数据数据字典(catalog)进行绑定,生成resolvedLogicalPlan; 使用optimizer对res...

stark_summer
2015/05/19
416
0
Apache Spark快速入门:基本概念和例子(2)

阿里云智能数据库事业部 OLAP 平台团队现向 2021 届海内外院校应届毕业生(毕业时间在2020年11月-2021年10月之间)招聘大数据系统工程师,有机会转正,有意请加 iteblog 微信内推。   《A...

Spark
2015/07/13
0
0
Spark SQL 概述+RDD、DataFrame、DataSet区别+DataFrame和DataSet常用操作

目标1:掌握Spark SQL原理 目标2:掌握DataFrame/DataSet数据结构和使用方式 目标3:熟练使用Spark SQL完成计算任务 1. Spark SQL概述 1.1. Spark SQL的前世今生 Shark是一个为Spark设计的...

osc_n2abpzfo
2019/08/15
1
0

没有更多内容

加载失败,请刷新页面

加载更多

文献速递20200524

一 文献题目:Characterizing the Causal Pathway for Genetic Variants Associated with Neurological Phenotypes Using Human Brain-Derived Proteome Data 不想看英文题目:使用人脑蛋白质......

osc_mbhfa1vl
26分钟前
9
0
【Java入门】JDK安装和环境变量配置(Win7版)

系统环境:Windows7 x64 安装JDK和JRE版本:1.8.0_191 1、下载JDK安装包 Oracle官网下载网址:https://www.oracle.com/technetwork/java/javase/downloads/index.html 选择需要下载的JDK版本...

osc_s7aj86hu
27分钟前
11
0
Android Q 指纹解锁流程

Android Q 指纹解锁流程 // Authentation Finger Schedule: (close Screen, Authentation with finger(Success))        // PhoneWindowManager        mKeyguardDelegate.onStar......

osc_0qnrwmy3
29分钟前
12
0
List的扩容机制,你真的明白吗?

一:背景 1. 讲故事 在前一篇大内存排查中,我们看到了Dictionary正在做扩容操作,当时这个字典的count=251w,你把字典玩的66飞起,其实都是底层为你负重前行,比如其中的扩容机制,当你遇到...

osc_34b9n45c
30分钟前
14
0
2020.04.12软件更新公告

原创软件区升级ComicsViewer、DjVuToy、Pdg2Pic、PdgRenamer、PdgThumbViewer

osc_6tgtqi6v
31分钟前
23
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部