文档章节

hive中beeline取回数据的完整流程

o
 osc_a22drz29
发布于 2019/03/22 18:08
字数 936
阅读 5
收藏 0

精选30+云产品,助力企业轻松上云!>>>

  这里我们从BeeLine.execute讲起。
  接下来来到BeeLine.dispatch,这里的入参就是sql语句。方法的最后调用了Commands.sql,然后调用到了Commands.execute。
  如下图所示,这里是Commands.execute中的关键逻辑。
  1.调用BeeLine.createStatement,该方法间接调用了HiveConnection.createStatement。在后面的方法中构建了HiveStatement。
  2.调用了Commands.createLogRunnable,在该方法中循环调用HiveStatement.hasMoreLogs。并且将方法HiveStatement.getQueryLog中获取到的数据使用BeeLine.info输出到控制台。该方法封装为Runnable然后返回,后面使用线程封装并调用。
  3.调用HiveStatement.execute,该方法首先调用closeClientOperation与initFlags重置了部分成员变量,以便下一次调用。
  4.然后调用Client.ExecuteStatement,获取返回的operationHandle,并为下一次调用做准备。
  5.遍历调用Client.GetOperationStatus,直到获取的状态为CLOSED_STATE或FINISHED_STATE,此时就可以将变量operationComplete置为true,跳出循环。
  6.构造结果集HiveQueryResultSet并返回。在构造期间我们需要注意这里会调用到HiveQueryResultSet.retrieveSchema。这里间接调用了Client.GetResultSetMetadata。
  7.后面调用了showRemainingLogsIfAny,该方法间接调用到了HiveStatement.getQueryLog,该方法内部就调用了Client.FetchResults。
  这里有一个令人疑惑的地方——构造了logThread线程后,调用其start方法,然后调用HiveStatement.execute,接着又调用了线程的interrupt与join方法。这里更多的是在服务端需要跑MR任务时获取相关的任务状态。
  1.首先调用logThread.start,此时是为了前期对于任务的监听。在logThread中循环的布尔条件,也就是HiveStatement.isLogBeingGenerated此时一直为true,也就是该线程一直在运行。
  2.然后调用了HiveStatement.execute,该方法在执行完Client.ExecuteStatement后调用Client.GetOperationStatus来获取语句的执行情况,如果语句的执行状态变更为FINISHED_STATE,则更新上面的变量值HiveStatement.isLogBeingGenerated为false。
  3.调用logThread.interrupt,也就是说,将logThread的中断值置为true。如果logThread此时处于sleep状态,那么会抛出InterruptedException异常,执行showRemainingLogsIfAny方法继续调用方法hiveStatement.getQueryLog来获取job状态信息。如果logThread不处于休眠状态,则会等到其下一次休眠时(如果有的话),同样会来到方法showRemainingLogsIfAny,继续查询job的状态。
  4.调用了logThread.join,其入参值为10s,也就是说,如果10s后logThread仍然运行,那么会停止监控。
  在BufferedRows的构造方法中就已经将所有的数据取回。这里主要调用了两个方法——HiveQueryResultSet.next与Row的构造方法。
  1.如下图所示,这里是HiveQueryResultSet.next方法中比较重要的逻辑部分。这里首先调用Client.FetchResults从服务端获取结果集,然后通过方法RowSetFactory.create构造了ColumnBasedSet(由于我们这里的版本号是HIVE_CLI_SERVICE_PROTOCOL_V7,因此构造的类是ColumnBasedSet,并且在该构造方法中完成了将返回的数据集封装到类型内成员变量的流程)。另外ColumnBasedSet覆写了接口Iterable中的iterator方法。用于后面迭代将数据取出。
这里的next方法中的条件判断保证了只要有数据取回,便会一直返回true,只有从服务端取回的数据为空时,这里的返回结果才为false。
  2.Row的构造方法,如下图所示:
  下图框选出该构造方法中的重点方法——HiveBaseResultSet.getString。这里会将上面方法中对成员变量row赋予的值取出为一行。
  这里简单总结一下,客户端调用TCLIService.thrift协议中的完成接口流程:
  1.OpenSession
  2.FetchResults
  3.CloseOperation
  4.ExecuteStatement
  5.GetOperationStatus
  6.GetResultSetMetadata
  7.FetchResults
  8.CloseOperation
  9.CloseSession
  如果连接已经建立后,这里只会调用上面中的2-8流程。
 

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
Java进行Hive的连接和访问

今天看了一遍不错的文章,关于Java访问Hive的,正好要用到这一块,分享到此以便更多的人可以学习和应用 非常感谢博主的总结和分享 博文链接: https://www.jianshu.com/p/4ef28607fc04 Hive内...

aiChuang
2019/09/06
237
0
beeline 连接hive

HiveServer2是一个能使客户端针对hive执行查询的一种服务,与HiverServer1比较,它能够支持多个客户端的并发请求和授权的;HiveCLI 和 hive –e的方式比较单一,HS2允许远程客户端使用多种语...

osc_6h5gkdny
2018/09/06
2
0
Hive 系列(三)—— Hive CLI 和 Beeline 命令行的基本使用

一、Hive CLI 1.1 Help 使用 或者 命令可以查看所有命令的帮助,显示如下: 1.2 交互式命令行 直接使用 命令,不加任何参数,即可进入交互式命令行。 1.3 执行SQL命令 在不进入交互式命令行的...

heibaiying
2019/09/21
17
0
SparkThriftServer 源码分析

[toc] 版本 spark 2.2.0 起点 Spark thrift server复用了Hive Server2的源码,插入了自己的覆盖的方法。 整个过程里面需要穿插着Hive和Spark的源码。 整个流程是从Beeline开始的,Beeline属于...

osc_jo6rqvdg
2018/04/18
2
0
第73课:Spark SQL Thrift Server实战

第73课:Spark SQL Thrift Server实战 本期内容: 1 Spark SQL Thrift解析与测试 2 Spark SQL Thrift Server JDBC编程 一、Spark SQL Thrift解析与测试 目标:希望操作人员能web操作简单的S...

卢卡斯
2016/05/24
632
0

没有更多内容

加载失败,请刷新页面

加载更多

基于 opencv 的图像处理入门教程

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶” 总第 146 篇文章,本文大约 5000 字,阅读大约需要 20 分钟 前言 虽然计算机视觉领域目前基本是以深度学习算法为主,但实际...

kbsc13
昨天
0
0
屁宝杀手升级啦!支持 Creator 2.4.0及所有2.X版本

2017年无意间写了两篇关于在 Cocos Creator 中使用 Protobufjs 的文章,随后开始了自己第一个副业产品pbkiller—屁宝杀手!没想到,一个小小的 Creator 插件工具,还活了这么久! 经过3年,直...

张晓衡
昨天
0
0
使用HTML5的自定义数据属性的jQuery选择器 - jQuery selectors on custom data attributes using HTML5

问题: I would like to know what selectors are available for these data attributes that come with HTML5. 我想知道哪些选择器可用于HTML5附带的这些数据属性。 Taking this piece of H......

javail
17分钟前
9
0
使用Jibri进行Jitsi Meet视频录制

前言 我们在做视频会议系统的时候,通常都会有会议录制功能,那么作为视频会议开源的翘楚,Jitsi是怎么做这一点的,在官方文档及其隐晦的情况下,我们该怎么成功搭建视频录制服务呢?下面我就...

死磕音视频
18分钟前
0
0
虚拟dom

一、什么是虚拟dom virtual dom(虚拟dom),是由普通的js对象来描述dom对象,因为不是真实的dom,所以叫virtual dom。 二、为什么要用虚拟dom来描述真实的dom? 举个例子,我们获取一个dom元素...

一生懸命吧
19分钟前
35
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部