文档章节

hive处理json和url

JPblog
 JPblog
发布于 2017/04/10 17:32
字数 258
阅读 93
收藏 0

HIVE直接读入json

样例:表test,字段json_str存储了json字符串

{ "firstName": "Brett", "lastName":"McLaughlin", "email": "aaaa" }
{ "firstName": "jesse", "lastName":"AJ", "email": "bb" }
  • get_json_object(jsonStr, kn)

        返回值: 一个key对应的一个字段

        说明:解析json的字符串jsonStr,若输入的json字符串无效,则返回NULL。

Hive处理语句:select get_json_object(json_str,'$.firstName') from test t

  • json_tuple(jsonStr, k1, k2, ...)

        返回值:多个key对应的多个字段

        说明:比 get_json_object 高效,可以在一次调用中输入多个键

HIVE处理语句:select json_tuple(json_str,'firstName','lastName','email') from test t

 

 

HIVE直接读入url

样例:表test1,字段url_str存储了url字符串

http://192.168.111.23:8888/filebrowser/view=/DB/lefuwx/test/part-m-00000
  • parse_url(url, partToExtract[, key])

        partToExtract选项[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]

Hive处理语句:select parse_url(url_str,'HOST') from .test1 t

  • parse_url_tuple(url, k1,k2..)

        partToExtract选项[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]

Hive处理语句:select parse_url_tuple(url_str,'HOST','PATH') from test1 t

© 著作权归作者所有

共有 人打赏支持
JPblog
粉丝 13
博文 64
码字总数 40732
作品 0
朝阳
程序员
私信 提问
Hive 在多维统计分析中的应用 & 技巧总结

本文原地址:https://my.oschina.net/leejun2005/blog/121945 多维统计一般分两种,我们看看 Hive 中如何解决: 1、同属性的多维组合统计 (1)问题: 有如下数据,字段内容分别为:url, ca...

SimplePoint
2017/04/18
0
0
Hive 在多维统计分析中的应用 & 技巧总结

多维统计一般分两种,我们看看 Hive 中如何解决: 1、同属性的多维组合统计 (1)问题: 有如下数据,字段内容分别为:url, catePath0, catePath1, catePath2, unitparams https://cwiki.ap...

大数据之路
2013/04/11
0
0
利用大数据技术分析新浪财经美股行情

学习大数据技术有一段时间了,之前也写过一些零零散散的博客,作为自己学习的一些记录,不过每篇博客都只是涵盖部分技术。这次想写一篇比较完整的博客,记录一个完整的项目从头到尾生产的过程...

teaGod
2017/12/14
0
0
利用java jdbc从hive提取日志数据进行简单处理

基于hive和spark的日志处理 从hive中读取数据 通过java中的jdbc方式连接hive 利用java中的java.sql.DriverManager连接hive,将数据暂时放到ListBuffer,之后转换成RDD进行spark基本操作。 利...

MyNameIsObama
2017/11/01
0
0
[Hive]JsonSerde使用指南

注意: 重要的是每行必须是一个完整的JSON,一个JSON不能跨越多行,也就是说,serde不会对多行的Json有效。 因为这是由Hadoop处理文件的工作方式决定,文件必须是可拆分的,例如,Hadoop将在...

Mr_yul
10/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Flask框架web开发:零基础入门

Flask框架是Python开发的一个基于Werkzeug和Jinja 2的web开发微框架,它的优势就是极其简洁,但又非常灵活,而且容易学习和应用。因此Flask框架是Python新手快速开始web开发最好的选择,此外...

笔阁
10分钟前
1
0
VMware前路难测,多个厂家群雄逐鹿

在人们高谈Salesforce、亚马逊等新兴云计算厂商取得的成就时,以VMware、HPE和Cisco为代表的老牌厂商也在进行着自己的转型和变化,而且还取得一定的进展。以VMware为例,虚拟机巨头公布了第二...

linuxCool
13分钟前
0
0
什么是以太坊DAO?(一)

Decentralized Autonomous Organization,简称DAO,以太坊中重要的概念。一般翻译为去中心化的自治组织。 “在区块链上,没有人知道你是一台冰箱”——理查德布朗 到目前为止,我们列出的所有...

geek12345
14分钟前
0
0
linux防火墙操作

一、.对于centos7自带的防火墙的相关指令 #停止firewall systemctl stop firewalld.service #禁止firewall开机启动 systemctl disable firewalld.service #查看firewall的状态 systemctl st......

张锦飞
16分钟前
1
0
Linux 磁盘与磁盘分区

  Linux 系统中所有的硬件设备都是通过文件的方式来表现和使用的,我们将这些文件称为设备文件,硬盘对应的设备文件一般被称为块设备文件。本文介绍磁盘设备在 Linux 系统中的表示方法以及...

SEOwhywhy
26分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部