文档章节

Hive中的分区和桶

huser_YJ
 huser_YJ
发布于 2014/09/22 16:38
字数 557
阅读 281
收藏 1

hive中的分区和桶


     Hive 把表组织成“分区” Partition。 这是一种根据“分区列”(Partition column,如日期)的值对表进行粗略划分的机制,使用分区可以加快数据分片(Slice)的查询速度


     表和分区可以进一步分为“桶”(Bucket)它会为数据提供额外的结果以获得更高效率的查询处理,例如,通过根据用户ID来划分桶,我们可以早所有用户集合的随机样本上快速计算基于用户的查询。



   下面以日志文件进行考虑,日志文件中的每条记录包含一个分区,我们一般根据日期来进行分区,同一天的记录会放在相同的区中。

   分区是在创建表的时候用partition by 子句定义的,该子句需要定义列的列表

   桶的话,可以把该表分成规定的几个部分,每个部分是根据制定的列取模来决定的  下面我们就是根据ts来对4取模决定桶的

如下:



在我们把数据加载到分区表的时候,要显示的指定分区值,比如我们在目录下面有一个文件   20140418GB.txt   里面有内容


我们将该数据加载到表logs中



现在来查看HDFS结构和里面的数据

我们在eclipse中查看


但是奇怪的是,进去里面的目录我们可以看到

这里并没有出现分桶,然后我们进行数据查找,以分桶的形式



结果如下


这个结果包括了所有三个文件中,符合要求的记录

我曾单独的使用过分桶,实验显示,如果单独分桶那么将会看见所分桶的各片,但是分区和分桶一起来的话,却只能看见分区的目录


我们是不是可以这样理解,当分区和分桶一起来时,分好的区是主流,我们可以看到分区中的目录,但是分的桶,我们不再看见,结构存在,只是不显示

而我们进行查找时,就可以用上了


© 著作权归作者所有

huser_YJ
粉丝 2
博文 21
码字总数 28816
作品 0
武汉
私信 提问
Hive 基础(1):分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊...

xrzs
2013/11/24
9.8K
3
分区、分桶和索引

1.分区 分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。 (1)静态分区create table if not e...

qhaiyan
2016/12/03
10
0
深入理解 Hive 分区分桶 (Inceptor)

分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查...

hblt-j
03/25
0
0
hive官方文档翻译

概念 Hive是什么 Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理,Hadoop提供了主要的扩展和容错能力。 Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。...

qi49125
2017/09/16
0
0
Hadoop 2.6 + Hive 1.2.1 + spark-1.4.1(3)

新建表 1) 新建表结构 create table usertable( id int, userid bigint, name string, describe string comment 'desc表示用户的描述' ) comment '这是用户信息表' partitioned by(country ......

片刻
2015/12/28
282
0

没有更多内容

加载失败,请刷新页面

加载更多

springmvc常用注解

405 405错误是请求方式和服务器处理方式不一致造成的 @RequestMapping(value="/test", method=RequestMethod.POST)public String testGET() {System.out.println("SUCCESS:GET");......

architect刘源源
11分钟前
0
0
浅析LRUCache原理(Android)

一. LruCache基本原理 LRU全称为Least Recently Used,即最近最少使用。 由于缓存容量是有限的,当有新的数据需要加入缓存,但缓存的空闲空间不足的时候,如何移除原有的部分数据从而释放空间...

天王盖地虎626
18分钟前
0
0
Fabric单机单节点部署及测试

1.基础环境搭建 Docker Client 客户端 Docker Daemon 守护进程 Docker Image 镜像 Docker Container 容器 这块的安装相信大家通过资料都可以完成,重点是下面 2.Fabric环境搭建 2.1 创建sin...

engeue
27分钟前
0
0
spring cloud openfeign笔记

前面记录服务的注册发现相关笔记是采用RestTemplate+LoadBalancerClient,有一个框架封装了微服务之间的调用,就是这个玩意。服务注册前面记录过了,这里就不说了https://my.oschina.net/uw...

朝如青丝暮成雪
44分钟前
3
0
前端搜索

思路:使用indexOf或正则表达式

单线程生物
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部