文档章节

使用Scala编程方式将RDD转换成DataFrame

别寒
 别寒
发布于 2017/07/26 15:43
字数 151
阅读 11
收藏 0
点赞 0
评论 0
package com.hhb.spark.sql

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType};

/**
  * Created by dell on 2017/7/26.
  */
object RDD2DataFrameProgrammatically extends App{
  val conf = new SparkConf()
    .setMaster("local")
    .setAppName("RDD2DataFrameProgrammatically")
    .set("spark.testing.memory", "2147480000")
  val sc = new SparkContext(conf)
  val sqlContext = new SQLContext(sc)

  // 构造出元素为Row的普通RDD
  val studentRDD = sc.textFile("c://students.txt", 1)
    .map{ line => Row(line.split(",")(0).toInt, line.split(",")(1), line.split(",")(2).toInt) }

  // 编程方式动态构造元数据
  val structType = StructType(Array(
    StructField("id", IntegerType, true),
    StructField("name", StringType, true),
    StructField("age", IntegerType, true)
  ))

  // 进行rdd到dataframe的转换
  val studentDF = sqlContext.createDataFrame(studentRDD, structType)

  // 继续正常使用
  studentDF.registerTempTable("students")

  val teenagerDF = sqlContext.sql("select * from students where age <= 18")

  val teenagerRDD = teenagerDF.rdd.collect().foreach(println(_))

}

© 著作权归作者所有

共有 人打赏支持
别寒
粉丝 30
博文 267
码字总数 135817
作品 0
永州
程序员
Spark SQL 笔记

官方参考文档: DataFrame 对于熟悉python的同学,Spark的DataFrame和python的DF很像。对于structured data files同学比较熟知的有xml、jason、parquet等。 关于parquet,请参考: 具体的df的...

youngbit007 ⋅ 2017/10/24 ⋅ 0

【Spark 2.0官方文档】Spark SQL、DataFrames以及Datasets指南

文档说明 本文是基于《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南 这篇文章翻译而来。 原文中关于R语言的部分本文档全都省略。 由于个人水平有限,有些地方难免翻译的不...

JackieYeah ⋅ 2016/09/11 ⋅ 0

基于spark1.3.1的spark-sql实战-01

sqlContext总的一个过程如下图所示: SQL语句经过SqlParse解析成UnresolvedLogicalPlan; 使用analyzer结合数据数据字典(catalog)进行绑定,生成resolvedLogicalPlan; 使用optimizer对res...

stark_summer ⋅ 2015/05/19 ⋅ 0

spark sql编程之实现合并Parquet格式的DataFrame的schema

问题导读 1.DataFrame合并schema由哪个配置项控制? 2.修改配置项的方式有哪两种? 3.spark读取hive parquet格式的表,是否转换为自己的格式? 首先说下什么是schema,其实这跟通俗来讲,与我...

c36qucns2zuqf6 ⋅ 2017/12/14 ⋅ 0

Spark(六):SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理

一:简单了解SparkSQL。 Spark SQL 是结构化的数据处理一个Spark模块。与基本的Spark RDD API不同,Spark SQL 所提供的接口为Spark 提供有关数据和正在执行的计算的结构的详细信息。Spark S...

牧羊人Berg ⋅ 2016/06/05 ⋅ 0

Spark SQL和DataFrame指南[中]

翻译自: http://spark.apache.org/docs/1.3.0/sql-programming-guide.html 概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可...

openthings ⋅ 2016/07/11 ⋅ 0

Spark SQL和DataFrame指南[中英对照]

翻译自http://spark.apache.org/docs/1.3.0/sql-programming-guide.html 概述(Overview) Spark SQL is a Spark module for structured data processing. It provides a programming abstract......

openthings ⋅ 2016/05/29 ⋅ 0

2、创建DataFrame的方式

1:DataFrame其实它是通过RDD的map方法读取每一条数据,然后把他存到“case class”中。最后通过这个RDD的toDF方法产生的。 由于case class 中有属性字段,而且这些字段的类型都有了,是不是...

刘付kin ⋅ 2016/11/29 ⋅ 0

RDD、DataFrame、DataSet、SQLContext,HiveContext

RDD spark最基础的分布式数据集,RDD提供了很多api来操作这个数据集中的数据,Rdd中的每一列没有scheme,没有标识。 DataFrame spark的高级抽象,在RDD的分布式数据集上,加上了scheme的信息...

cjun1990 ⋅ 2016/04/08 ⋅ 0

RDD转换成DataFrames

官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema。这种方法会简化代码并且在你已经知道schema的时候非常适用。 先创建一个bean类 case class Person(name: String, age: I...

cjun1990 ⋅ 2016/04/08 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Centos7重置Mysql 8.0.1 root 密码

问题产生背景: 安装完 最新版的 mysql8.0.1后忘记了密码,向重置root密码;找了网上好多资料都不尽相同,根据自己的问题总结如下: 第一步:修改配置文件免密码登录mysql vim /etc/my.cnf 1...

豆花饭烧土豆 ⋅ 今天 ⋅ 0

熊掌号收录比例对于网站原创数据排名的影响[图]

从去年下半年开始,我在写博客了,因为我觉得业余写写博客也还是很不错的,但是从2017年下半年开始,百度已经推出了原创保护功能和熊掌号平台,为此,我也提交了不少以前的老数据,而这些历史...

原创小博客 ⋅ 今天 ⋅ 0

LVM讲解、磁盘故障小案例

LVM LVM就是动态卷管理,可以将多个硬盘和硬盘分区做成一个逻辑卷,并把这个逻辑卷作为一个整体来统一管理,动态对分区进行扩缩空间大小,安全快捷方便管理。 1.新建分区,更改类型为8e 即L...

蛋黄Yolks ⋅ 今天 ⋅ 0

Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负...

p柯西 ⋅ 今天 ⋅ 0

uWSGI + Django @ Ubuntu

创建 Django App Project 创建后, 可以看到路径下有一个wsgi.py的问题 uWSGI运行 直接命令行运行 利用如下命令, 可直接访问 uwsgi --http :8080 --wsgi-file dj/wsgi.py 配置文件 & 运行 [u...

袁祾 ⋅ 今天 ⋅ 0

JVM堆的理解

在JVM中,我们经常提到的就是堆了,堆确实很重要,其实,除了堆之外,还有几个重要的模块,看下图: 大 多数情况下,我们并不需要关心JVM的底层,但是如果了解它的话,对于我们系统调优是非常...

不羁之后 ⋅ 昨天 ⋅ 0

推荐:并发情况下:Java HashMap 形成死循环的原因

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环。这个事情我4、5年前也经历...

码代码的小司机 ⋅ 昨天 ⋅ 2

聊聊spring cloud gateway的RetryGatewayFilter

序 本文主要研究一下spring cloud gateway的RetryGatewayFilter GatewayAutoConfiguration spring-cloud-gateway-core-2.0.0.RC2-sources.jar!/org/springframework/cloud/gateway/config/G......

go4it ⋅ 昨天 ⋅ 0

创建新用户和授予MySQL中的权限教程

导读 MySQL是一个开源数据库管理软件,可帮助用户存储,组织和以后检索数据。 它有多种选项来授予特定用户在表和数据库中的细微的权限 - 本教程将简要介绍一些选项。 如何创建新用户 在MySQL...

问题终结者 ⋅ 昨天 ⋅ 0

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部