文档章节

csv导入Hive脚本

gulf
 gulf
发布于 07/21 17:10
字数 238
阅读 51
收藏 1
from pyspark.sql import HiveContext

hivec  = HiveContext(sc)  # 创建一个hivecontext对象用于写执行SQL,sc为sparkcontext

# 拼接一个字段类型字符串
str_s = 'label String,'
for i in range(len(df.columns)-1):
    str_s += 'pixel%s String,' % i
# 拼接SQL语句
sql_str = "create table ml_test.decivsion ({})".format(str_s[:-1])  # 最后一个逗号需要去掉,否则报错

hivec.sql(sql_str)  # 执行SQL

df = spark.read.csv(your hdfs path)  # 把csv读成dataframe,第一个参数为path
## 其他参数
# schema – an optional pyspark.sql.types.StructType for the input schema.
# header:默认值是false。就是把第一行当做数据,改为false,第一行就变为字段;
# sep:默认情况下,CSV是使用英文逗号分隔的,其他分隔符号可修改此选项;
# 更多参数请查阅官方文档
 
df.write.insertInto('ml_test.decivsion', overwrite=False)  # 将dataframe写入到指定hive表

 

© 著作权归作者所有

共有 人打赏支持
gulf
粉丝 13
博文 277
码字总数 156947
作品 0
广州
程序员
私信 提问
Exchange 用户归档邮件导入导出PST操作实例

分享一个之前做过的Exchange邮箱数据文件的导入导出操作示例。目录内容如下: 目录 第一步 新建一个Exchange角色组并将其添加到Mailbox Import Export 管理角色中... 4 第二步 创建共享文件夹...

jialt
2017/08/03
0
0
Hive 数据模型

Hive 数据模型 Hive 数据表有五种类型:内部表,外部表,分区表,桶表,视图表,默认以 tab 分隔 * MySQL (Oracle) 表默认以逗号分隔,因此,要想导入 MySQL(Oracle) 数据,需要设置分隔符,...

菜鸟的征程
01/07
0
0
Hybris商品图片导入与压缩有关的配置

1. 在电脑上安装 ImageMagick 软件(windows平台还需要安装VC++),下载路径:http://www.imagemagick.org/script/download.php#windows 在local.properies文件配置安装路径和配置文件路径:...

jmcui
2017/07/25
0
0
Centos7安装hive

所需软件及下载地址1、mysql或mariadbmysql下载地址https://dev.mysql.com/downloads/mysql/5.5.html#downloads或用mariadb也可以,直接yum安装yum -y install mariadb-server2、hivehttp://......

天涯有梦
2017/12/11
0
0
批量导入Exchange邮箱用户头像

1、首先,我们像批量开启帐号的方法一样,利用CSV文件编辑好要配置邮箱头像的帐号,如下图所示: 2、接着呢,我们将对应员工照片放入对应存放路径,如下图所示: 3、制作PowerShell脚本,以实...

Juck_Zhang
01/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CPU性能过剩提升乏力影响未来行业发展吗?

虽然CPU仍然在不断发展,但是它的性能已经不再仅仅受限于单个处理器类型或制造工艺上了。和过去相比,CPU性能提升的步伐明显放缓了,接下来怎么办,成为横亘在整个行业面前的大问题。 自201...

linuxCool
19分钟前
0
0
使用Autowired和Qualifier解决多个相同类型的bean如何共存的问题

注意: 实现类UserServiceImpl,MyUserServiceImpl 需要区分:@Service("userServicel") @Service("myUserService") https://blog.csdn.net/russle/article/details/80287763......

qimh
53分钟前
3
0
SQL 语句使用to_char函数时,检索结果有空格

小疯在使用Oracle过程中,使用to_char函数检索表数据时发现检索结果前面会有一个空格,对后续开发有影响。问题很好解决,比较直接对可以做一下trim处理。但是小疯很疑惑为什么会有空格呢,于...

野小疯
54分钟前
3
0
对接比特币钱包的PHP开发包

BtcTool是一个基于第三方服务和离线裸交易实现的PHP比特币应用开发包,适合不希望部署本地 节点旳PHP开发者,开发包主要包含以下特性: 利用第三方服务获取指定地址的utxo集合 离线生成消费裸...

汇智网教程
今天
2
0
【自用】 VHD to VHDX

VHDX: 在VHD 2TB 的基础上提供 64TB的容量。 支持逻辑扇区大小为 4KB,和每块的大小为 256MB,来优化虚拟磁盘性能。 比VHD提供更高的安全性、可靠性和性能。 convert-VHD –path d:\Hyper-v...

Tensor丨思悟
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部