文档章节

使用TPC-H对Hive测试

vieky
 vieky
发布于 2014/12/05 10:58
字数 859
阅读 629
收藏 1

最近由于工作要求,需要对Hive进行一下测试。在一篇论文中看到使用TCP-H,上网查了一下还算是比较靠谱的一个基准测试程序,所以决定拿来一试。网上关于这方面的博客貌似很少(能力有限,没找到很多),通过自己摸索,写下这个东东,共享之,也希望同样关注这个方面的人能够共同讨论。

系统环境:

    6个结点,ubuntu01为master结点,ubuntu02-ubuntu06为slave结点

    Ubuntu 12.04 LTS

    Hadoop-1.2.1

    Hive-0.13.1

    tpch_2_14_3

一、安装配置

1、下载TPC-H源码tpch_2_14_3.zip,用来生成测试数据

      网址:http://www.tpc.org/tpch/default.asp

2、将TPC-H压缩包解压,本文中解压目录为:/opt/

     命令:ubuntu@ubuntu01:~$ unzip tpch_2_14_3.zip -C /opt/

3、进入tpch目录下的dbgen子目录下,将makefile.suite文件拷贝为makefile,并对makefile进行修改

     命令:ubuntu@ubuntu01:/opt/dbgen$ cp makefile.suite makefile

     命令:ubuntu@ubuntu01:/opt/dbgen$ gedit makefile

     在makefile文件中的相应行进行如下修改:CC      = gcc

     # Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)  

     #                                  SQLSERVER, SYBASE  

     # Current values for MACHINE are:  ATT, DOS, HP, IBM, ICL, MVS, 

     #                                  SGI, SUN, U2200, VMS, LINUX, WIN32   

     # Current values for WORKLOAD are:  TPCH 

     DATABASE= SQLSERVER  

     MACHINE = LINUX  

     WORKLOAD = TPCH 

4、修改dbgen文件夹下的tpcd.h文件

     修改其中的SQLSERVER段:

     #ifdef  SQLSERVER
     #define GEN_QUERY_PLAN        "EXPLAIN;"
     #define START_TRAN                "START TRANSACTION;\n"
     #define END_TRAN                "COMMIT;\n"
     #define SET_OUTPUT                ""
     #define SET_ROWCOUNT                "limit %d;\n"
     #define SET_DBASE                "use %s;\n"
     #endif

5、执行makefile

     命令:ubuntu@ubuntu01:/opt/dbgen$ make

6、生成需要用的数据

     命令:ubuntu@ubuntu01:/opt/dbgen$ ./dbgen -s 1

     说明:-s 代表数据规模因子,1 代表产生1G的数据量

     在当前文件夹下生成的8个.tbl文件就是我们所需要的数据。

二、测试

      在hive上建8个表 ( 由于hive自带的脚本dbgen/dss.ddl和hive的语法不符,所以不能直接用这个脚本建表,如果对hive语法熟练的话可以直接对其进行修改,另存为dss.ddl.hive文件 )。在此介绍另外一种方法建表。

      下载最新的TPC-H_on_Hive命令包

       网址:https://issues.apache.org/jira/browse/HIVE-600

       解压后,将之前生成的8个表 ( 即.tbl文件) 放在data目录下 

       现在可以先对tpch目录下的命令试着执行一下

       命令:ubuntu@ubuntu01:~$ hive -f /opt/TPC-H_on_Hive/tpch/q1_pricing_summary_report.hive

       到现在为止,已经可以成功执行测试程序了,但进入hive查看表项会发现,表中没有数据。这是因为执行上一条命令,会创建相关的数据表,但还没有往数据表中导入数据。现在,就要把之前生成的数据导入到创建好的8个表中。表和数据文件是一一对应的,按名字就能区分出来。

       命令: ubuntu@ubuntu01:~$ hive

       命令: hive > LOAD DATA LOCAL INPATH '/opt/TPC-H_on_Hive/data/customer.tbl' INTO TABLE customer ;

       这只是对customer这个表加载了数据,剩下的7个表也用同样的方法加载。

      万事具备,只欠东风。下面就可以测试啦。

      命令:ubuntu@ubuntu01:~$ hive -f /opt/TPC-H_on_Hive/tpch/q1_pricing_summary_report.hive

      ------------------------分割线-----------------------

      以上呢,是我自己摸索的方法,但是偶然看到TPC-H_on_Hive/data目录下有个tpch_prepare_data.sh文件,执行这个文件可以在HDFS上建立每个表的目录,然后加载数据就行啦,不过我还没试,有兴趣的话可以试试这个,应该不会像第一种方法那样走弯路。

本文转载自:http://my.oschina.net/u/1412751/blog/351884

共有 人打赏支持
vieky
粉丝 11
博文 55
码字总数 47106
作品 0
长沙
高级程序员
SQL on Hadoop 和 SQL off Hadoop 介绍

  【IT168 资讯】最初,Apache Hadoop被视为是批处理非结构化数据的平台。从本质上讲,Hadoop是一种存储和处理大量数据的廉价又可靠的方式,吸引了更多的客户。   随着时间的推移,Data ...

it168网站
2017/11/07
0
0
Apache Kylin v2.0.0 Beta 尝鲜版上线

Apache Kylin 社区于日前宣布:Apache Kylin v2.0.0 Beta 版发布。 此次 Apache Kylin v2.0.0 Beta 升级的功能有: (KYLIN-1875)支持雪花数据模型 (KYLIN-2467)支持TPC-H查询 (KYLIN-2...

王练
2017/02/28
1K
11
Apache Hawq功能测试脚本

一. TPC-H编译 1.下载工具TPC-H 下载地址 2. 拷贝生成makefile,并修改makefile 修改makefile 3.编译 4.生成数据 5.创建数据库以及相关表格语句 6.查询语句在queries目录下 22个 二、创建表空...

Lynn_Yuan
08/16
0
0
大规模并行查询引擎--BlinkDB

BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。 为了达到这个目标,Bli...

红薯
2013/08/20
9.2K
1
大数据Benchmark

Benchmark在计算机领域应用最成功的就是性能测试,主要测试负载的执行时间、传输速度、吞吐量、资源占用率等。 数据库领域,TPC的Bench已经成为开发数据库的主流Benchmark。开发者在开发的过...

bigsloth
2016/10/06
84
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

c语言之内存分配笔记

先看一个数组: short array[5] = {1,2} // 这儿定义的一个int类型的数组,数组第1和第2个元素值是1和2.其余后面默认会给值为0; 或者 short array[] = {1,2};//这儿数组第1和第2个元素,数组...

DannyCoder
46分钟前
0
0
Shell | linux安装包不用选择Y/N的方法

apt-get install -y packageOR echo "y" | sudo apt-get install package

云迹
今天
1
0
Hadoop的大数据生态圈

基于Hadoop的大数据的产品圈 大数据产品的一句话概括 Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架...

zimingforever
今天
4
0
八大包装类型的equals方法

先看其中一个源码 结论:八大包装类型的equals方法都是先判断类型是否相同,不相同则是false,相同则判断值是否相等 注意:包装类型不能直接用==来等值比较,否则编译报错,但是数值的基本类型...

xuklc
今天
2
0
NoSQL , Memcached介绍

什么是NoSQL 非关系型数据库就是NoSQL,关系型数据库代表MySQL 对于关系型数据库来说,是需要把数据存储到库、表、行、字段里,查询的时候根据条件一行一行地去匹配,当量非常大的时候就很耗...

TaoXu
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部