文档章节

Hive HBase 整合

哈鼎
 哈鼎
发布于 2014/10/29 16:56
字数 1260
阅读 3607
收藏 9

环境说明:

l  hadoop2.4.0

l  Zookeeper3.4.6

l  Hbase0.96

l  Hive0.13.1

 

1.  Hive整合HBase原理

HiveHBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠Hive安装包\apache-hive-0.13.1-bin\lib\hive-hbase-handler-0.9.0.jar工具类,它负责HbaseHive进行通信的。

HiveHBase通信原理如下图:

2.  Hive的安装

Step01:上传apache-hive-0.13.1-binLinux目录下

说明:

  1. 这里使用的是最新版本稳定版,下载:http://mirrors.hust.edu.cn/apache/hive/

  2. 使用远程ftp工具上传到Linux下的 /long/home/software目录下

Step02:解压到安装目录下:

    cd /home/long/software

       #切换到root用户:

    su

    password

       #创建目录

    mkdir -p /usr/share/hive

       #解压到安装目录

    tar -zxvf apache-hive-0.13.1-bin.tar.gz -C /usr/share/hive

       #更改用户

    chown -R long:long /usr/share/hive

       #切换回来

    su long

    cd /usr/share/hive

    ll

      

Step03:配置环境变量

su do vi /etc/profile

编辑如下:

# 使之生效

source /etc/profile

Step04:拷贝jar

#删除$HIVA_HOME/lib目录下的的Zookeeperjar

rm -rf $HIVE_HOME/lib/zookeeper*

 

#拷贝生产环境下的Zookeeperjar包到$HIVA_HOME/lib目录下

cp $ZOOKEEPER_HOME/zookeeper-3.4.6.jar $HIVA_HOME/lib

 

Step05修改$HIVE_HOME/conf/hive-site.xml

cd $HIVE_HOME/conf

 

#复制一份出来

cp hive-default.xml.template hive-site.xml

 

#修改hive-site.xml

vi hive-site.mxl

由于文件内容比较多,需要进行查找,查找方式很简单,在命令行模式下输入 ‘/’ 后面跟上需要查找的文本即可找到,如:   / hive.querylog.location

<property>

  <name>hive.querylog.location</name>

  <value>/usr/share/hive/logs</value>

</property>

记得创建logs目录:

mkdir $HIVE_HOME/logs

 

#修改hive.zookeeper.quorum的值:

<property>

  <name>hive.zookeeper.quorum</name>

  <value>long001,long002,long003,long004,long005,long006,long007</value>

</property>

 

Step06在目录$HIVE_HOME/bin目录下面,修改文件hive-config.sh

#在最后面增加以下内容:

export JAVA_HOME=/usr/lib/jvm/java7

export HIVE_HOME=/usr/share/hive

export HADOOP_HOME=/usr/share/hadoop/static

 

Step07:修改$HADOOP_HOME/conf/hadoop-env.sh

#增加HADOOP_CLASSPATH

export HADOOP_CLASSPATH=.:$CLASSPATH:$HADOOP_CLASSPATH:$HADOOP_HOME/bin

#记得修改完成以后,要将修改后的文件同步拷贝到其他的节点。

注:如果hadoop-env.sh中没有增加HADOOP_CLASSPATH的话会报下面的错误:

java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetryException

 

Step07:验证

#在命令行中输入hive

long@long007:/usr/share/hive/conf$ hive

14/10/29 11:18:16 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead

 

Logging initialized using configuration in jar:file:/usr/share/hive/lib/hive-common-0.13.1.jar!/hive-log4j.properties

#查看当前数据库

hive> show databases;

OK

default

Time taken: 0.03 seconds, Fetched: 1 row(s)

Step08:创建表

hive> use default;

hive> create table student(id string, name string);

创建好表以后,会在hdfs文件系统上产生一个/user/hive/warehouse/student的目录,至此,Hive就安装好了。

3.修改存储引擎为MySQL

为什么要修改存储引擎?

1. metastorehive元数据的集中存放地。metastore默认使用内嵌的derby数据库作为存储引擎。

2. Derby引擎的缺点:一次只能打开一个会话

3. 使用Mysql作为外置存储引擎,多用户同时访问

 

Step01:安装MySQL

我采用在线安装的方式,机器为Ubuntu

# 安装server

sudo apt-get install mysql-server

中间会提示输入root用户密码

# 安装client

sudo apt-get install mysql-client

Step02:启动MySQL服务

mysqld_safe &

Step03:登录数据库

mysql –root –p1234

 

Step04:设置数据库日志格式

set global binlog_format='MIXED';

 

# 创建数据库

create database hive;

# 为long用户授权,可以对hive数据库下的所有内容执行任意操作,在任意位置,root验证密码是admin

mysql> GRANT all ON hive.* TO long@'%' IDENTIFIED BY 'admin';

mysql> flush privileges;        --刷新权限表

 

Step04:上传mysql-connector-java-5.1.20-bin.jar$HIVE_HOME/lib目录下

Step05修改hive的数据库配置信息,修改hive-site.xml文件,修改如下:

<property>

     <name>hive.metastore.warehouse.dir</name>

     <value>/hive</value>

     <description>location of default database for the warehouse</description>

</property>

4.启动Hive

# 以集群的方式启动

hive --auxpath /usr/share/hive/lib/hive-hbase-handler-0.9.0.jar,/usr/share/hive/lib/zookeeper-3.4.6.jar -hiveconf hbase.master=longV007:60000

 

5.创建Hive外部表关联HBase

说明:现在已存在一张HBase’bidask_quote’,现在要创建一张hive的外部表,关联到hbase的表,语句如下:

hive> CREATE EXTERNAL TABLE bidask_quote_hive(key string,ProdCode string,ProdName string,TradingDay string,ExchangeID string,ExchangeInstID string,LastPrice string,PreSettlementPrice string,PreClosePrice string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = "info:ProdCode,info:ProdName,info:TradingDay,info:ExchangeID,info:ExchangeInstID,info:LastPrice,info:PreSettlementPrice,info:PreClosePrice ")

TBLPROPERTIES("hbase.table.name" = "bidask_quote"); 

说明:

    * bidask_quote_hivehivebiao

    * "hbase.table.name" = "bidask_quote"hbase中已经存在的表

    * bidask_quote_hive(key string,ProdCode string,string,ProdName string,....)hive表的结构

    * "hbase.columns.mapping" = "info:ProdCode,info:ProdName,info:TradingDay,...)HBase中的列信息,这里现在只有一个列蔟。

 

现在来看一下是否创建成功:

hive> show tables;

 

如果存在我们创建的bidask_quote_hive表,就查询几条数据试试吧

hive> select * from bidask_quote_hive limit 3;

 

 

 

后续还有关于Hive API的操作。

 

 

 

 

 

遇到的错误

错误1

long@long007:/usr/share/hive/bin$ ./hive

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetryException

        at java.lang.Class.forName0(Native Method)

        at java.lang.Class.forName(Class.java:270)

        at org.apache.hadoop.util.RunJar.main(RunJar.java:205)

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.CommandNeedRetryException

        at java.net.URLClassLoader$1.run(URLClassLoader.java:366)

        at java.net.URLClassLoader$1.run(URLClassLoader.java:355)

        at java.security.AccessController.doPrivileged(Native Method)

        at java.net.URLClassLoader.findClass(URLClassLoader.java:354)

        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)

        at java.lang.ClassLoader.loadClass(ClassLoader.java:358)

        ... 3 more

解决办法:

/usr/share/hadoop/etc/hadoop/hadoop-env.sh里面被增加了HADOOP_CLASSPATH.

设置如下:

export HADOOP_CLASSPATH=$HBASE_HOME/hbase/hbase-0.20.3.jar:$HABSE_HOME/hbase-config:$ZOOKEEPER/zookeeper-3.2.2.jar

将其修改为:

export HADOOP_CLASSPATH=.:$CLASSPATH:$HADOOP_CLASSPATH:$HADOOP_HOME/bin

 

© 著作权归作者所有

共有 人打赏支持
哈鼎
粉丝 4
博文 20
码字总数 7646
作品 0
深圳
加载中

评论(1)

kt431128
kt431128
能讲讲为什么要将hive和hbase整合吗?
hive 与 hbase 结合

一、hive与hbase的结合 Hive会经常和Hbase结合使用,把Hbase作为Hive的存储路径,所以Hive整合Hbase尤其重要。使用Hive读取Hbase中的数据,可以使用HQL语句在HBase表上进行查询、插入操作;甚...

meteor_hy
06/26
0
0
hive与hbase数据交互的详解指南 | ApacheCN(apache中文网)

HBase和Hive的集成原理 ApacheCN | apache中文网 Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟...

片刻
2014/06/28
0
0
使用hive读取hbase数据

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类...

凡16
2013/12/13
0
0
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引擎是MapRe...

虚无境
08/24
0
0
Hive Hbase区别 整理

Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不...

李超
2015/04/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSX | SafariBookmarksSyncAgent意外退出解决方法

1. 启动系统, 按住⌘-R不松手2. 在实用工具(Utilities)下打开终端,输入csrutil disable, 然后回车; 你就看到提示系统完整性保护(SIP: System Integrity Protection)已禁用3. 输入reboot回车...

云迹
今天
4
0
面向对象类之间的关系

面向对象类之间的关系:is-a、has-a、use-a is-a关系也叫继承或泛化,比如大雁和鸟类之间的关系就是继承。 has-a关系称为关联关系,例如企鹅在气候寒冷的地方生活,“企鹅”和“气候”就是关...

gackey
今天
4
0
读书(附电子书)|小狗钱钱之白色的拉布拉多

关注公众号,在公众号中回复“小狗钱钱”可免费获得电子书。 一、背景 之前写了一篇文章 《小狗钱钱》 理财小白应该读的一本书,那时候我才看那本书,现在看了一大半了,发现这本书确实不错,...

tiankonguse
今天
4
0
Permissions 0777 for ‘***’ are too open

异常显示: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @ WARNING: UNPROTECTED PRIVATE KEY FILE! @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ......

李玉长
今天
5
0
区块链10年了,还未落地,它失败了吗?

导读 几乎每个人,甚至是对通证持怀疑态度的人,都对区块链的技术有积极的看法,因为它有可能改变世界。然而,区块链技术问世已经10年了,我们仍然没有真正的用上区块链技术。 几乎每个人,甚...

问题终结者
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部