文档章节

hive处理json和url

JPblog
 JPblog
发布于 2017/04/10 17:32
字数 269
阅读 50
收藏 0
点赞 0
评论 0

HIVE直接读入json

  • get_json_object(jsonStr, kn)

        返回值: 一个key对应的一个字段

        说明:解析json的字符串jsonStr,若输入的json字符串无效,则返回NULL。

        样例:表test,字段json_str存储了json字符串

{ "firstName": "Brett", "lastName":"McLaughlin", "email": "aaaa" }
{ "firstName": "jesse", "lastName":"AJ", "email": "bb" }

Hive处理语句:select get_json_object(json_str,'$.firstName') from origin_lefuwx.test t

  • json_tuple(jsonStr, k1, k2, ...)

        返回值:多个key对应的多个字段

        说明:比 get_json_object 高效,可以在一次调用中输入多个键

        样例:表test,字段json_str存储了json字符串

{ "firstName": "Brett", "lastName":"McLaughlin", "email": "aaaa" }
{ "firstName": "jesse", "lastName":"AJ", "email": "bb" }

HIVE处理语句:select json_tuple(json_str,'firstName','lastName','email') from origin_lefuwx.test t

 

 

HIVE直接读入url

  • parse_url(url, partToExtract[, key])

        partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]

样例:

http://192.168.111.23:8888/filebrowser/view=/DB/lefuwx/test/part-m-00000

Hive处理语句:select parse_url('http://192.168.111.23:8888/filebrowser/view=/DB/lefuwx/test/part-m-00000','HOST')

  • parse_url_tuple(url, k1,k2..)

        partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]

样例:

http://192.168.111.23:8888/filebrowser/view=/DB/lefuwx/test/part-m-00000

Hive处理语句:select parse_url_tuple('http://192.168.111.23:8888/filebrowser/view=/DB/lefuwx/test/part-m-00000','HOST','PATH')

© 著作权归作者所有

共有 人打赏支持
JPblog
粉丝 10
博文 51
码字总数 27225
作品 0
朝阳
程序员
hive字符串函数

字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length('abcedfg') from lxwdual; 7 2. 字符串反转函数:reverse 语法: reverse...

超人学院 ⋅ 2015/06/04 ⋅ 0

Hive 在多维统计分析中的应用 & 技巧总结

本文原地址:https://my.oschina.net/leejun2005/blog/121945 多维统计一般分两种,我们看看 Hive 中如何解决: 1、同属性的多维组合统计 (1)问题: 有如下数据,字段内容分别为:url, ca...

SimplePoint ⋅ 2017/04/18 ⋅ 0

Hive 中的复合数据结构简介以及一些函数的用法说明

目前 hive 支持的复合数据类型有以下几种: map (key1, value1, key2, value2, ...) Creates a map with the given key/value pairs struct (val1, val2, val3, ...) Creates a struct with ......

xrzs ⋅ 2013/04/07 ⋅ 4

Hive 在多维统计分析中的应用 & 技巧总结

多维统计一般分两种,我们看看 Hive 中如何解决: 1、同属性的多维组合统计 (1)问题: 有如下数据,字段内容分别为:url, catePath0, catePath1, catePath2, unitparams https://cwiki.ap...

xrzs ⋅ 2013/04/11 ⋅ 0

hive 常用小技巧

parse_url如果查不到会返回 NULL parse_url用来解析url中的数据。常用的就是解析HOST和QUERY。 string parse_url(string urlString, string partToExtract [, string keyToExtract]) Returns......

王二铁 ⋅ 2014/05/12 ⋅ 0

利用大数据技术分析新浪财经美股行情

学习大数据技术有一段时间了,之前也写过一些零零散散的博客,作为自己学习的一些记录,不过每篇博客都只是涵盖部分技术。这次想写一篇比较完整的博客,记录一个完整的项目从头到尾生产的过程...

teaGod ⋅ 2017/12/14 ⋅ 0

Impala 表使用 Avro 文件格式(翻译)

Impala 表使用 Avro 文件格式 Cloudera Impala 支持数据文件使用 Avro 文件格式的表。Impala 可以查询 Avro 表,但目前不支持创建和插入数据。对于这些操作,使用 Hive 处理,然后切换回 Im...

weiqingbin ⋅ 2014/01/20 ⋅ 0

利用java jdbc从hive提取日志数据进行简单处理

基于hive和spark的日志处理 从hive中读取数据 通过java中的jdbc方式连接hive 利用java中的java.sql.DriverManager连接hive,将数据暂时放到ListBuffer,之后转换成RDD进行spark基本操作。 利...

MyNameIsObama ⋅ 2017/11/01 ⋅ 0

hive最新UDF函数(2016-10-25)

hive UDF函数 :(后期翻译,暂时先贴着,有兴趣来 http://apache.wiki 可以一起来翻译呀) https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 不过这个基本是不需要什么...

片刻 ⋅ 2016/10/25 ⋅ 0

Impala安装json解析udf插件

背景 Impala跟Hive一样,是常用的数据仓库组件之一。熟悉Hive的同学肯定知道,Hive官方提供了getjsonobject函数用于处理json字符串,但是Impala官方并没有提供类似的方法,好在是有第三方实现...

wooyoo ⋅ 2017/04/18 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

spring Email

使用spring发Email其实就是使用spring自己封装携带的一个javamail.JavaMailSenderImpl类而已。这个类可以当一个普通的java对象来使用,也可以通过把它配置变成spring Bean的方式然后注入使用...

BobwithB ⋅ 23分钟前 ⋅ 0

spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的...

tuoleisi77 ⋅ 26分钟前 ⋅ 0

思考

时间一天天过感觉自己有在成长吗?最怕的是时光匆匆而过,自己没有收获!下面总结下最近自己的思考。 认识自己 认识另一个自己,人们常说要虚心听取别人意见和建议。然而人往往是很难做到的,...

hello_hp ⋅ 26分钟前 ⋅ 0

IT行业的变革就像世界杯德国对战墨西哥一样难以预测[图]

最近在观看世界杯,尤其是昨天的比赛,上一届卫冕冠军德国队居然0:1告负墨西哥,这创造了历史,首先是墨西哥从来没赢过德国队,其次是德国队36年来首站没输过,再差也是打平,而这次,德国队...

原创小博客 ⋅ 45分钟前 ⋅ 0

解决CentOS6、7,/etc/sysconfig/下没有iptables的问题

一、Centos 6版本解决办法: 1.任意运行一条iptables防火墙规则配置命令: iptables -P OUTPUT ACCEPT 2.对iptables服务进行保存: service iptables save 3.重启iptables服务: service ...

寰宇01 ⋅ 55分钟前 ⋅ 2

数据库备份和恢复

备份:mysqldump -u root -p 数据库>磁盘路径 恢复:mysql -u root -p 数据库<sql脚本的磁盘路径

anlve ⋅ 今天 ⋅ 0

发生了什么?Linus 又发怒了?

在一个 Linux 内核 4.18-rc1 的 Pull Request 中,开发者 Andy Shevchenko 表示其在对设备属性框架进行更新时,移除了 union 别名,这引发了 Linus 的暴怒。 这一次 Linus Torvalds 发怒的原...

问题终结者 ⋅ 今天 ⋅ 0

在树莓派上搭建一个maven仓库

在树莓派上搭建一个maven仓库 20180618 lambo init 项目说明 家里有台树莓派性能太慢。想搭建一个maven私服, 使用nexus或者 jfrog-artifactory 运行的够呛。怎么办呢,手写一个吧.所在这个...

林小宝 ⋅ 今天 ⋅ 0

Spring发展历程总结

转自与 https://www.cnblogs.com/RunForLove/p/4641672.html 目前很多公司的架构,从Struts2迁移到了SpringMVC。你有想过为什么不使用Servlet+JSP来构建Java web项目,而是采用SpringMVC呢?...

onedotdot ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部