文档章节

Hive - truncate partition、drop partition 区别

ericquan8
 ericquan8
发布于 2015/12/19 23:04
字数 447
阅读 868
收藏 2

Hive 有两种方法删除指定parition的数据:truncate partition, drop parition

功能:

两者都用于删除数据,即将对应的partition的数据文件删除。


不同点:

truncate 只删除数据文件,保存在mysql中的metadata不会被删除。

drop partition 只删除数据文件且删除在mysql中的metadata。


举例:

表food的结构:

id     bigint
name   string


数据文件,food.data:

1    banana
2    orange
3    apple
4    nutz


导入food.data后查询, select * from food:

输出:

1    banana    20151219
2    orange    20151219
3    apple     20151219
4    nutz      20151219


现在想给food添加一列price: 

ALTER TABLE food ADD COLUMNS (price int);

表结构变成:

id    bigint
name  string
price int


并且把food.data对应位置多加一列:

1    banana    20
2    orange    30
3    apple     30
4    nutz      40


删除旧的数据(drop partition)

TRUNCATE TABLE food PARTITION (dt='20151219');


重新导入包含price信息的food.data,再查询:

1       banana  NULL    20151219
2       orange  NULL    20151219
3       apple   NULL    20151219
4       nutz    NULL    20151219

可见,虽然表格的结构和数据文件都已经有price的信息,但导入后,hive并没有识别出price这列。原因是hive中metadata中没有price的信息。 drop partition只是删除数据文件,并没有删除metadata中的信息。


show partitions food 看看,输出结果:

dt=20151219

证明truncate删除后,分区信息还没有删除。


用drop partition再试一次:

ALTER TABLE food DROP IF EXISTS PARTITION (dt='20151219');

这时show partitions food, 'dt=20151219' 的分区已经被删除。


重新导入包含price信息的food.data,再查询:

1    banana  20      20151219
2    orange  30      20151219
3    apple   30      20151219
4    nutz    40      20151219


总结:

truncate删除分区,只删除数据文件,parttion的信息还保留在配置的mysql中;drop partition删除分区,数据文件和metadata一起清除。

以后大家就根据实际情况选择使用了。


© 著作权归作者所有

共有 人打赏支持
ericquan8
粉丝 6
博文 17
码字总数 21301
作品 0
广州
程序员
分区表维护

背景: SENDCONTROLHIS1分区表存在大量无用数据,虽不影响性能,但可以删除部分分区节省存储空间。 --查表空间有哪些对象 select owner,segmentname,segmenttype,partition_name,bytes/1024...

zylhsy
2016/09/03
0
0
hive 分区(partition)简介

网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,...

大数据之路
2012/10/08
0
0
对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于...

Zero零_度
2016/07/07
18
0
Hive sql语法详解2

Hive sql语法详解2-修改表结构 hive同样也面对传统数据库的一些操作,那么hive 1.如何增加分区、删除分区? 2.如何重命名表? 3.如何修改列的名字、类型、位置、注释? 4.如何增加/更新列? 5.如...

超人学院
2014/11/26
798
0
Oracle分区修改的语句

Oracle分区修改的语句 1、增加一个分区 ALTER TABLE sales ADD PARTITION jan96 VALUES LESS THAN ( '01-FEB-1999' ) TABLESPACE tsx; 增加一个列表分区 ALTER TABLE q1salesby_region ADD P......

李狗蛋丶
2016/11/05
67
0

没有更多内容

加载失败,请刷新页面

加载更多

70.shell的函数 数组 告警系统需求分析

20.16/20.17 shell中的函数 20.18 shell中的数组 20.19 告警系统需求分析 20.16/20.17 shell中的函数: ~1. 函数就是把一段代码整理到了一个小单元中,并给这个小单元起一个名字,当用到这段...

王鑫linux
今天
0
0
分布式框架spring-session实现session一致性使用问题

前言:项目中使用到spring-session来缓存用户信息,保证服务之间session一致性,但是获取session信息为什么不能再服务层获取? 一、spring-session实现session一致性方式 用户每一次请求都会...

WALK_MAN
今天
5
0
C++ yield()与sleep_for()

C++11 标准库提供了yield()和sleep_for()两个方法。 (1)std::this_thread::yield(): 线程调用该方法时,主动让出CPU,并且不参与CPU的本次调度,从而让其他线程有机会运行。在后续的调度周...

yepanl
今天
4
0
Java并发编程实战(chapter_3)(线程池ThreadPoolExecutor源码分析)

这个系列一直没再写,很多原因,中间经历了换工作,熟悉项目,熟悉新团队等等一系列的事情。并发课题对于Java来说是一个又重要又难的一大块,除非气定神闲、精力满满,否则我本身是不敢随便写...

心中的理想乡
今天
33
0
shell学习之获取用户的输入命令read

在运行脚本的时候,命令行参数是可以传入参数,还有就是在脚本运行过程中需要用户输入参数,比如你想要在脚本运行时问个问题,并等待运行脚本的人来回答。bash shell为此提 供了read命令。 ...

woshixin
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部