文档章节

Hive系列之HSQL转换成MapReduce过程

Vegetable
 Vegetable
发布于 2017/09/06 10:01
字数 922
阅读 29
收藏 0

hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句, 像操作关系数据库一样操作文件内容, 比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。通过参考网上几篇不错的文档, 有点小心得分享出来。主要的参考链接
http://tech.meituan.com/hive-sql-to-mapreduce.html
http://www.slideshare.net/recruitcojp/internal-hive
注明:本文的图片借用slideshare内容。

hive的整体架构图如下所示, compiler部分负责把HiveSQL转换成MapReduce任务。

Paste_Image.png

基本转换步骤
hiveSQL转换成MapReduce的执行计划包括如下几个步骤:
HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree(操作树)->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树

Paste_Image.png

SQL Parser:Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象 语法树AST Tree;
Semantic Analyzer:遍历AST Tree,抽象出查询的基本组成单元QueryBlock;
Logical plan:遍历QueryBlock,翻译为执行操作树OperatorTree;
Logical plan optimizer: 逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量;
Physical plan:遍历OperatorTree,翻译为MapReduce任务;
Logical plan optimizer:物理层优化器进行MapReduce任务的变换,生成最终的执行计划;

step1: SQL Parser
如下图所示, sql语句可以解析为三个部分
AST中第一个部分对应SQL语句中FROM access_log_hbase a JOIN product_hbase p ON (a.prono=p.prono)。
insert overwrite table对应第二部分。
select a.user, a.prono, p.maker, p.price对应第三部分。

Paste_Image.png

step2: Semantic Analyzer
这个步骤把AST转换成基本的查询块QB,如下图所示
QB的对象包括如下属性:
aliasToTabs:保存表格别名的信息
aliasToSubq:保存子查询的信息
qbm:保存每个输入表的元信息,比如表在HDFS上的路径,保存表数据的文件格式等

QBParseInfo对象包括如下属性:
joinExpr: 保存TOK_JOIN节点信息
destToxx:保存输出和各个操作的ASTNode节点的对应关系。

Paste_Image.png

如下图中, 表格别名a, p保存到aliasTotabs, 分别对应“access_log_hbase", " product_hbase"。
TOK_JOIN信息保存到ParseInfo对象:joinExpr

Paste_Image.png

下图所示,TOK_DESTINATION节点保存到nameToDest属性中。

Paste_Image.png

下图所示,TOK_SELECT节点保存到nameToDest属性中。

Paste_Image.png

step3:Logical Plan
该步骤是把查询块QB转换操作树。
操作树基本的操作符包括TableScanOperator,SelectOperator,FilterOperator,JoinOperator,GroupByOperator,ReduceSinkOperator。
TableScanOperator: 扫描数据表中数据,从原表中取数据。
JoinOperator完成Join操作。
FilterOperator完成过滤操作, 对应sql里面的where语句功能
ReduceSinkOperator:标志着Hive Map阶段的结束, Reduce阶段的开始。
SelectOperator:reduce阶段输出select中的列
FileSinkOperator: 生成结果数据到输出文件。

从两个输入表格中读入数据, 用operator树表示为两个TableScanOperator节点

Paste_Image.png

Join放在reduce阶段执行, 执行join节点前,加入两个ReduceSinkOperator节点,表示当前map阶段结束, 进入到reduce阶段。

Paste_Image.png

selectoperator节点,从reduce节点获取select指定的列值。

Paste_Image.png

nameToDest ASTNode节点,转换为FileSinkOperator节点, 把结果写入到目标文件。

Paste_Image.png

通过上面几个转换步骤, 最终生成的logical计划树。

Paste_Image.png

logical plan tree还可以通过logical plan optimizer进一步优化, 优化完成的逻辑优化树还有转换成物理执行计划和物理执行计划优化。本文不做详细介绍, 后续有时间再补充。

PS: 查看hive sql编译后的执行计划
hive> explain select * from tablename;

参考文档:
http://tech.meituan.com/hive-sql-to-mapreduce.html
http://www.slideshare.net/recruitcojp/internal-hive
http://lxw1234.com/archives/2015/09/476.htm

本文转载自:http://www.jianshu.com/p/660fd157c5eb

共有 人打赏支持
Vegetable
粉丝 18
博文 46
码字总数 46625
作品 0
杭州
私信 提问
Hive系列(一)Hive基本概念

一、Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能...

u012834750
2018/05/29
0
0
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
2018/05/22
0
0
hadoop--Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在...

寒月谷
2018/08/02
0
0
Hadoop(5)--hive

在Hadoop的存储处理方面提供了两种不同的机制,一种是之前介绍过的Hbase,另外一种就是Hive,有关于Hbase,它是一种nosql数据库的一种,是一种数据库,基于分布式的列式存储,适合海量数据的...

spark009
2018/08/14
0
0
Hive SQL 编译过程详解

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对...

大数据之路
2014/05/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Nextjs+React非页面组件SSR渲染

@随风溜达的向日葵 Nextjs Nextjs是React生态中非常受欢迎的SSR(server side render——服务端渲染)框架,只需要几个步骤就可以搭建一个支持SSR的工程(_Nextjs_的快速搭建见Next.js入门)...

随风溜达的向日葵
47分钟前
0
0
如何在 Linux 系统查询机器最近重启时间

在你的 Linux 或类 UNIX 系统中,你是如何查询系统上次重新启动的日期和时间?怎样显示系统关机的日期和时间? last 命令不仅可以按照时间从近到远的顺序列出该会话的特定用户、终端和主机名...

来来来来来
今天
3
0
Redis协议是什么样的

前言 我们用过很多redis的客户端,有没有相过自己撸一个redis客户端? 其实很简单,基于socket,监听6379端口,解析数据就可以了。 redis协议 解析数据的过程主要依赖于redis的协议了。 我们...

春哥大魔王的博客
今天
6
0
乱入Linux界的我是如何学习的

欢迎来到建哥学Linux,咳!咳!咳!开个玩笑哈,我是一个IT男,IT界的入门选手,正在学习Linux。 在之前,一直想进军IT界,学习IT技术,但是苦于没有人指导,也不知道学什么,最开始我自己在...

linuxCool
今天
4
0
携程Apollo统一配置中心的搭建和使用(java)

一.Apollo配置中心介绍 1、What is Apollo 1.1 Apollo简介 Apollo(阿波罗)是携程框架部门研发的开源配置管理中心,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到...

morpheusWB
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部