文档章节

csv导入Hive脚本

gulf
 gulf
发布于 07/21 17:10
字数 238
阅读 10
收藏 1
from pyspark.sql import HiveContext

hivec  = HiveContext(sc)  # 创建一个hivecontext对象用于写执行SQL,sc为sparkcontext

# 拼接一个字段类型字符串
str_s = 'label String,'
for i in range(len(df.columns)-1):
    str_s += 'pixel%s String,' % i
# 拼接SQL语句
sql_str = "create table ml_test.decivsion ({})".format(str_s[:-1])  # 最后一个逗号需要去掉,否则报错

hivec.sql(sql_str)  # 执行SQL

df = spark.read.csv(your hdfs path)  # 把csv读成dataframe,第一个参数为path
## 其他参数
# schema – an optional pyspark.sql.types.StructType for the input schema.
# header:默认值是false。就是把第一行当做数据,改为false,第一行就变为字段;
# sep:默认情况下,CSV是使用英文逗号分隔的,其他分隔符号可修改此选项;
# 更多参数请查阅官方文档
 
df.write.insertInto('ml_test.decivsion', overwrite=False)  # 将dataframe写入到指定hive表

 

© 著作权归作者所有

共有 人打赏支持
gulf
粉丝 10
博文 273
码字总数 155798
作品 0
广州
程序员
Hive 数据模型

Hive 数据模型 Hive 数据表有五种类型:内部表,外部表,分区表,桶表,视图表,默认以 tab 分隔 * MySQL (Oracle) 表默认以逗号分隔,因此,要想导入 MySQL(Oracle) 数据,需要设置分隔符,...

菜鸟的征程
01/07
0
0
Centos7安装hive

所需软件及下载地址1、mysql或mariadbmysql下载地址https://dev.mysql.com/downloads/mysql/5.5.html#downloads或用mariadb也可以,直接yum安装yum -y install mariadb-server2、hivehttp://......

天涯有梦
2017/12/11
0
0
Exchange 用户归档邮件导入导出PST操作实例

分享一个之前做过的Exchange邮箱数据文件的导入导出操作示例。目录内容如下: 目录 第一步 新建一个Exchange角色组并将其添加到Mailbox Import Export 管理角色中... 4 第二步 创建共享文件夹...

jialt
2017/08/03
0
0
【配置】Hive整合HBase

一、配置 1.将HBase相关jar包拷贝到hive的lib目录下 2.修改hive-site.xml配置文件 ①将上述jar包添加到hive-site.xml配置的hive.aux.jars.path属性中。 ②修改hive.zookeeper.quorum属性。 ...

ZoeYen_的博客
2017/12/18
0
0
Hybris商品图片导入与压缩有关的配置

1. 在电脑上安装 ImageMagick 软件(windows平台还需要安装VC++),下载路径:http://www.imagemagick.org/script/download.php#windows 在local.properies文件配置安装路径和配置文件路径:...

jmcui
2017/07/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

【七】组合Action

本章描述了常用定义Action的方法。 自定义action builders 我们在action一章已经看过如何声明一个action——有request parameter、无request parameter、有body parser等等。你可以在 asynch...

Landas
28分钟前
0
0
Spring Boot实战之基础回顾

本文作者: 吴伟祥 本文链接: https://wuweixiang.cn/2018/08/21/Spring-Boot实战之基础回顾/ 版权声明: 本博客所有文章除特别声明外均为原创,采用CC BY-NC-SA 4.0 许可协议。转载请在文章开...

吴伟祥
28分钟前
0
0
OAuth认证开发

提示: 以下测试是基于项目安装成功,初始化数据库(initial_db.ddl, oauth.ddl, initial_data.ddl)后的测试, 也可在页面上点击"client_details"菜单里进行测试 方式1:基于浏览器 (grant_type=...

舒文joven
37分钟前
1
0
第二章-对象及变量的并发访问-第二篇

锁对象的改变 请阅读如下代码 public class MainClass { private String lock = "123"; public void printStringB() { try { synchronized (lock) { ......

简心
41分钟前
0
0
日志中记录代理IP以及真实客户端、apache只记录指定URI的日志

apache 日志中记录代理IP以及真实客户端 默认情况下log日志格式为: LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i"" combined 其中%h 是记录访问者的IP,如果在web的前...

李超小牛子
50分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部