文档章节

hive处理json和url

JPblog
 JPblog
发布于 2017/04/10 17:32
字数 258
阅读 67
收藏 0

HIVE直接读入json

样例:表test,字段json_str存储了json字符串

{ "firstName": "Brett", "lastName":"McLaughlin", "email": "aaaa" }
{ "firstName": "jesse", "lastName":"AJ", "email": "bb" }
  • get_json_object(jsonStr, kn)

        返回值: 一个key对应的一个字段

        说明:解析json的字符串jsonStr,若输入的json字符串无效,则返回NULL。

Hive处理语句:select get_json_object(json_str,'$.firstName') from test t

  • json_tuple(jsonStr, k1, k2, ...)

        返回值:多个key对应的多个字段

        说明:比 get_json_object 高效,可以在一次调用中输入多个键

HIVE处理语句:select json_tuple(json_str,'firstName','lastName','email') from test t

 

 

HIVE直接读入url

样例:表test1,字段url_str存储了url字符串

http://192.168.111.23:8888/filebrowser/view=/DB/lefuwx/test/part-m-00000
  • parse_url(url, partToExtract[, key])

        partToExtract选项[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]

Hive处理语句:select parse_url(url_str,'HOST') from .test1 t

  • parse_url_tuple(url, k1,k2..)

        partToExtract选项[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]

Hive处理语句:select parse_url_tuple(url_str,'HOST','PATH') from test1 t

© 著作权归作者所有

共有 人打赏支持
JPblog
粉丝 10
博文 55
码字总数 32831
作品 0
朝阳
程序员
Hive 在多维统计分析中的应用 & 技巧总结

本文原地址:https://my.oschina.net/leejun2005/blog/121945 多维统计一般分两种,我们看看 Hive 中如何解决: 1、同属性的多维组合统计 (1)问题: 有如下数据,字段内容分别为:url, ca...

SimplePoint
2017/04/18
0
0
Hive 在多维统计分析中的应用 & 技巧总结

多维统计一般分两种,我们看看 Hive 中如何解决: 1、同属性的多维组合统计 (1)问题: 有如下数据,字段内容分别为:url, catePath0, catePath1, catePath2, unitparams https://cwiki.ap...

大数据之路
2013/04/11
0
0
利用大数据技术分析新浪财经美股行情

学习大数据技术有一段时间了,之前也写过一些零零散散的博客,作为自己学习的一些记录,不过每篇博客都只是涵盖部分技术。这次想写一篇比较完整的博客,记录一个完整的项目从头到尾生产的过程...

teaGod
2017/12/14
0
0
hive最新UDF函数(2016-10-25)

hive UDF函数 :(后期翻译,暂时先贴着,有兴趣来 http://apache.wiki 可以一起来翻译呀) https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 不过这个基本是不需要什么...

片刻
2016/10/25
83
0
利用java jdbc从hive提取日志数据进行简单处理

基于hive和spark的日志处理 从hive中读取数据 通过java中的jdbc方式连接hive 利用java中的java.sql.DriverManager连接hive,将数据暂时放到ListBuffer,之后转换成RDD进行spark基本操作。 利...

MyNameIsObama
2017/11/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

流量劫持是如何产生的?

流量劫持,这种古老的攻击沉寂了一段时间后,最近又开始闹的沸沸扬扬。众多知名品牌的路由器相继爆出存在安全漏洞,引来国内媒体纷纷报道。只要用户没改默认密码,打开一个网页甚至帖子,路由...

谢思华
23分钟前
0
0
Hadoop Client无法使用maven下载源码

最近在学习hadoop,使用maven的时候想看一下源码的注释,结果IDEA一直提示无法下载 搞得我一度以为maven坏掉了。 但是通过搜索,发现在maven仓库里确实没有源码.... 而2.8.1以及之前的版本是...

Iceberg_XTY
25分钟前
0
0
为什么程序员千万不要重写代码?

你所做的事情,也许暂时看不到成果,但不要灰心或焦虑,你不是没有成长,而是在扎根。 图片来自网络 0 前言 程序员都有一颗工程师的心,所以当他们到一片新的场地想做的第一件事就是,将旧的...

Java小铺
27分钟前
0
0
VUE集成AdminLte

1. 安装需要到插件 npm i admin-lte -Snpm i jquery -Snpm i axios -Snpm i vue-router -S 2. 配置webpack.config.js 2.1 module.exports.module.rules修改字体loader: {test: /\.(p......

Pasenger
今天
0
0
Spring Aop原理之切点表达式解析

在前面的文章(Spring AOP切点表达式详解)中,我们总结了Spring Aop切点表达式的用法,而在上文(Spring Aop原理之Advisor过滤)中我们讲到,切点表达式的解析主要是在PatternParser.parse...

爱宝贝丶
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部