文档章节

Hive - truncate partition、drop partition 区别

ericquan8
 ericquan8
发布于 2015/12/19 23:04
字数 447
阅读 1106
收藏 2

Hive 有两种方法删除指定parition的数据:truncate partition, drop parition

功能:

两者都用于删除数据,即将对应的partition的数据文件删除。


不同点:

truncate 只删除数据文件,保存在mysql中的metadata不会被删除。

drop partition 只删除数据文件且删除在mysql中的metadata。


举例:

表food的结构:

id     bigint
name   string


数据文件,food.data:

1    banana
2    orange
3    apple
4    nutz


导入food.data后查询, select * from food:

输出:

1    banana    20151219
2    orange    20151219
3    apple     20151219
4    nutz      20151219


现在想给food添加一列price: 

ALTER TABLE food ADD COLUMNS (price int);

表结构变成:

id    bigint
name  string
price int


并且把food.data对应位置多加一列:

1    banana    20
2    orange    30
3    apple     30
4    nutz      40


删除旧的数据(drop partition)

TRUNCATE TABLE food PARTITION (dt='20151219');


重新导入包含price信息的food.data,再查询:

1       banana  NULL    20151219
2       orange  NULL    20151219
3       apple   NULL    20151219
4       nutz    NULL    20151219

可见,虽然表格的结构和数据文件都已经有price的信息,但导入后,hive并没有识别出price这列。原因是hive中metadata中没有price的信息。 drop partition只是删除数据文件,并没有删除metadata中的信息。


show partitions food 看看,输出结果:

dt=20151219

证明truncate删除后,分区信息还没有删除。


用drop partition再试一次:

ALTER TABLE food DROP IF EXISTS PARTITION (dt='20151219');

这时show partitions food, 'dt=20151219' 的分区已经被删除。


重新导入包含price信息的food.data,再查询:

1    banana  20      20151219
2    orange  30      20151219
3    apple   30      20151219
4    nutz    40      20151219


总结:

truncate删除分区,只删除数据文件,parttion的信息还保留在配置的mysql中;drop partition删除分区,数据文件和metadata一起清除。

以后大家就根据实际情况选择使用了。


© 著作权归作者所有

共有 人打赏支持
ericquan8
粉丝 6
博文 17
码字总数 21301
作品 0
广州
程序员
私信 提问
分区表维护

背景: SENDCONTROLHIS1分区表存在大量无用数据,虽不影响性能,但可以删除部分分区节省存储空间。 --查表空间有哪些对象 select owner,segmentname,segmenttype,partition_name,bytes/1024...

zylhsy
2016/09/03
0
0
hive 分区(partition)简介

网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,...

大数据之路
2012/10/08
0
0
对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于...

Zero零_度
2016/07/07
18
0
Hive sql语法详解2

Hive sql语法详解2-修改表结构 hive同样也面对传统数据库的一些操作,那么hive 1.如何增加分区、删除分区? 2.如何重命名表? 3.如何修改列的名字、类型、位置、注释? 4.如何增加/更新列? 5.如...

超人学院
2014/11/26
991
0
Oracle分区修改的语句

Oracle分区修改的语句 1、增加一个分区 ALTER TABLE sales ADD PARTITION jan96 VALUES LESS THAN ( '01-FEB-1999' ) TABLESPACE tsx; 增加一个列表分区 ALTER TABLE q1salesby_region ADD P......

李狗蛋丶
2016/11/05
67
0

没有更多内容

加载失败,请刷新页面

加载更多

Eureka Server启用 https服务指北

文章共 591字,阅读大约需要 2分钟 ! 概 述 在我的前文《Eureka Server 开启Spring Security Basic认证》中已经给 Eureka Server 开启了最基本的鉴权措施,本文则让 HTTPS加持于 Eureka Ser...

CodeSheep
27分钟前
3
0
OSChina 周二乱弹 —— 其实我在地板也睡不着

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @witt-z :分享歌词: 阴天 在不开灯的房间,当所有思绪都一点一点沉淀。 分享莫文蔚的单曲《阴天》: 《阴天》- 莫文蔚 手机党少年们想听歌,...

小小编辑
49分钟前
152
6
微服务分布式事务实现

https://www.processon.com/view/link/5b2144d7e4b001a14d3d2d30

WALK_MAN
今天
3
0
《大漠烟尘》读书笔记及读后感文章3700字

《大漠烟尘》读书笔记及读后感文章3700字: 在这个浮躁的社会里,你有多久没有好好读完一本书了? 我们总觉得自己和别人不一样,所以当看到别人身上的问题时,很少有“反求诸己”,反思自己。...

原创小博客
今天
4
0
大数据教程(9.5)用MR实现sql中的jion逻辑

上一篇博客讲解了使用jar -jar的方式来运行提交MR程序,以及通过修改YarnRunner的源码来实现MR的windows开发环境提交到集群的方式。本篇博主将分享sql中常见的join操作。 一、需求 订单数据表...

em_aaron
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部