文档章节

使用Hive读取Hbase中的数据

闪电
 闪电
发布于 2016/08/08 00:51
字数 982
阅读 20
收藏 0

第一步,启动hadoop,命令:./start-all.sh

第二步,启动hive,命令:

./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=127.0.0.1:60000

这里,-hiveconf hbase.master=指向自己在hbase-site.xml中hbase.master的值

第三步,启动hbase,命令:./start-hbase.sh

第四步,建立关联表,这里我们要查询的表在hbase中已经存在所以,使用CREATE EXTERNAL TABLE来建立,如下:

CREATE EXTERNAL TABLE hbase_table_2(key string, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "data:1") 
TBLPROPERTIES("hbase.table.name" = "test");

 hbase.columns.mapping指向对应的列族;多列时,data:1,data:2;多列族时,data1:1,data2:1;

 hbase.table.name指向对应的表;

 hbase_table_2(key string, value string),这个是关联表

我们看一下HBase中要查询的表的结构,

hbase(main):001:0> describe 'test'
DESCRIPTION                                                             ENABLED                               
 {NAME => 'test', FAMILIES => [{NAME => 'data', COMPRESSION => 'NONE',  true                                  
 VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY                                        
 => 'false', BLOCKCACHE => 'true'}]}                                                                          
1 row(s) in 0.0810 seconds
hbase(main):002:0>

 在看一下表中的数据,

hbase(main):002:0> scan 'test'
ROW                          COLUMN+CELL                                                                      
 row1                        column=data:1, timestamp=1300847098583, value=value1                             
 row12                       column=data:1, timestamp=1300849056637, value=value3                             
 row2                        column=data:2, timestamp=1300847106880, value=value2                             
3 row(s) in 0.0160 seconds
hbase(main):003:0>

 列族:data:1、data:2两个

 Key:row1、row12、row2

 value:value1、value3、value2

 hbase_table_2(key string, value string)中对应的test表中的row,value字段对应的是test表中的value

OK,现在可以来看看查询结果了,

我们在hive命令行中先查看一下hbase_table_2,

hive> select * from hbase_table_2;
OK
row1	value1
row12	value3
Time taken: 0.197 seconds
hive>

 对比一下test表中的列族为data:1的数据,

row1                        column=data:1, timestamp=1300847098583, value=value1                             
 row12                       column=data:1, timestamp=1300849056637, value=value3

和查询结果相符,没问题,然后我们在hbase中在给列族data:1新增一条数据,

hbase(main):003:0> put 'test','row13','data:1','value4'
0 row(s) in 0.0050 seconds
hbase(main):004:0>

 再查看hbase_table_2表,

hive> select * from hbase_table_2;
OK
row1	value1
row12	value3
row13	value4
Time taken: 0.165 seconds
hive>

 新增数据value4出现了,说明可以通过hbase_table_2查询hbase的test表

下面我们来查询一下test表中value值为value3的数据,

hive> select * From hbase_table_2 where value='value3';
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201103231022_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201103231022_0001
Kill Command = /home/dream-victor/hadoop-0.20.2/bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201103231022_0001
2011-03-23 11:23:27,807 Stage-1 map = 0%,  reduce = 0%
2011-03-23 11:23:30,824 Stage-1 map = 100%,  reduce = 0%
2011-03-23 11:23:33,854 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_201103231022_0001
OK
row12	value3
Time taken: 11.929 seconds
hive>

 和hbase的test表对比一下,

row12                       column=data:1, timestamp=1300849056637, value=value3

 OK,这样我们就可以使用SQL来对hbase进行查询了。

 

以上只是在命令行里左对应的查询,我们的目的是使用JAVA代码来查询出有用的数据,其实这个也很简单,

首先,启动Hive的命令有点变化,使用如下命令:

./hive --service hiveserver

 这里我们默认使用嵌入的Derby数据库,这里可以在hive-site.xml文件中查看到:

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:derby:;databaseName=metastore_db;create=true</value>//指定了数据库默认的名字和地址
</property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>org.apache.derby.jdbc.EmbeddedDriver</value>
</property>

 在此,数据库链接的URL可以使用默认的:jdbc:hive://localhost:10000/default

 有了上面的准备,下面我们就可以使用JAVA代码来读取数据了,如下:

public class HiveTest extends TestCase {

	private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
	private Connection con;
	private boolean standAloneServer = true;

	public void testSelect() throws SQLException {
		Statement stmt = con.createStatement();
		ResultSet res = stmt.executeQuery("select * from hbase_table_2");
		boolean moreRow = res.next();
		while (moreRow) {
			System.out.println(res.getString(1)+","+res.getString(2));
			moreRow = res.next();
		}
	}

	@Override
	protected void setUp() throws Exception {
		super.setUp();
		Class.forName(driverName);
		con = DriverManager.getConnection(
				"jdbc:hive://localhost:10000/default", "", "");
	}
}

 结果,

row1,value1
row12,value3
row13,value4
row14,test

 查看一下hbase中的结果,

ROW                          COLUMN+CELL                                                                      
 row1                        column=data:1, timestamp=1300847098583, value=value1                             
 row12                       column=data:1, timestamp=1300849056637, value=value3                             
 row13                       column=data:1, timestamp=1300850443699, value=value4                             
 row14                       column=data:1, timestamp=1300867550502, value=test

 OK,完美了,不过还是希望这样的需求少一点,毕竟Hbase产生的初衷不是为了支持结构化查询。

本文转载自:http://victorzhzh.iteye.com/blog/972406

闪电
粉丝 75
博文 392
码字总数 6789
作品 0
海淀
技术主管
私信 提问
Hive 数据导入HBase的2种方法详解

最近经常被问到这个问题,所以简单写一下总结。 Hive数据导入到HBase基本有2个方案: 1、HBase中建表,然后Hive中建一个外部表,这样当Hive中写入数据后,HBase中也会同时更新 2、MapReduce...

王二铁
2015/08/27
11.7K
0
hive 与 hbase 结合

一、hive与hbase的结合 Hive会经常和Hbase结合使用,把Hbase作为Hive的存储路径,所以Hive整合Hbase尤其重要。使用Hive读取Hbase中的数据,可以使用HQL语句在HBase表上进行查询、插入操作;甚...

meteor_hy
2018/06/26
0
0
使用hive读取hbase数据

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类...

凡16
2013/12/13
783
0
HBase实操 | 使用Spark通过BulkLoad快速导入数据到HBase

HBase社区直播本期分享专家:明惠(网名:过往记忆)-阿里云数据架构师 视频地址: https://yq.aliyun.com/live/590?spm=a2c4e.11155435.0.0.460177969kCLxf PPT地址: https://yq.aliyun.com/...

hbase小能手
2018/11/16
0
0
区分 hdfs hbase hive hbase适用场景

Hive 不想用程序语言开发MapReduce的朋友比如DB们,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。 注意Hive现在适合在离线下进行数据的操作,就是说不适合在挂在真实的生产环境...

八戒_o
2015/11/19
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

一起来学Java8(三)——方法引用

在一起来学Java8(一)——函数式编程中有一个简单的函数式编程的例子: import java.util.function.Consumer;class Person { public static void sayHello(String name) { S...

猿敲月下码
17分钟前
8
0
读书笔记:深入理解ES6(十一)

第十一章 Promise与异步编程   Promise可以实现其他语言中类似Future和Deferred一样的功能,是另一种异步编程的选择,它既可以像事件和回调函数一样指定稍后执行的代码,也可以明确指示代码...

张森ZS
40分钟前
14
0
面试官,Java8 JVM内存结构变了,永久代到元空间

在文章《JVM之内存结构详解》中我们描述了Java7以前的JVM内存结构,但在Java8和以后版本中JVM的内存结构慢慢发生了变化。作为面试官如果你还不知道,那么面试过程中是不是有些露怯?作为面试...

程序新视界
48分钟前
28
0
Elasticsearch 实战(一) - 简介

官腔 Elasticsearch,分布式,高性能,高可用,可伸缩的搜索和分析系统 基本等于没说,咱们慢慢看 1 概述 百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜...

JavaEdge
53分钟前
20
0
【jQuery基础学习】11 jQuery性能简单优化

本文转载于:专业的前端网站➦【jQuery基础学习】11 jQuery性能简单优化 关于性能优化 合适的选择器 $("#id")会直接调用底层方法,所以这是最快的。如果这样不能直接找到,也可以用find方法继...

前端老手
今天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部