Hive介绍(35)

原创
2014/04/07 22:25
阅读数 98

            hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析.

            hive是建立在Hadoop上的数据仓库基础架构,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

            hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reduce来处理内建的mapper和reduce无法完成的复杂的分析工作.

            hive没有专门的数据格式,hive可以很好的工作在Thrift之上,控制分隔符,也允许用户指定数据格式.

            hive是基于hadoop的sql解析引擎.

            在hive中运行的是sql.hive中的sql非常接近mysql的sql语法.

            hiveQL中的数据库、表、字段、类型与hadoop上的文件结构的对比.

            数据库----------文件夹

            表--------------文件夹

            表中数据-------文件夹中的数据文件

            字段------------数据文件中的列

            hiveQL运行-----MapReduce

            hiveQL中的表信息必须映射成HDFS中的文件信息,类似于Hibernate的配置文件(*.hmb.xml)。

            这些映射信息不实存放在文件中,而是存放在RDBMS(derby,mysql)中.


                                                                                                                Name:Xr

                                                                                                                Date:2014-04-07 22:25

展开阅读全文
打赏
0
1 收藏
分享
加载中
更多评论
打赏
0 评论
1 收藏
0
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部