HIVE 外部表和内部表数据导入方式以及区别

原创
2017/07/17 19:29
阅读数 7.4K

一、建表 

  1. 内部表的创建
CREATE EXTERNAL TABLE test.test_maneged_table(
 id int,
 name string
)
PARTITIONED by  (dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
LOCATION '/user/test/test_localtion_load';--location路径 需提前建好

     2.外部表的创建

CREATE TABLE test.test_maneged_table(
 id int,
 name string
)
PARTITIONED by  (dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';

    区别: 

        1. 外部表需要external关键之,location是数据文件默认存放位置,不管是不管是select 还是load的数据都存放在这里。导入数据到外部表,数据并没有mv到数据仓库目录,而是在loacation目录。

        2.内部表建表时也能加上location,作用和外部表一样,都是表数据的存放路径,不同的是drop table时内部表会将hdfs上的数据也删掉,外部表仅仅是删除表的元数据,原始数据不会删除。

    优点:

         1.安全,外部表不用担心表删除带来的风险。

         2.灵活,方便数据共享,使用更加灵活。

二、修改分区表增加分区

alter table test.test_maneged_table add partition(dt=20170101) location '/user/test/test_localtion_load/20170101'

   会自动在/user/test/test_localtion_load/目录下创建20170101目录,test_maneged_table表dt=20170101分区的数据默认放到文件系统的/user/test/test_localtion_load/20170101

    1./user/test/test_localtion_load下面没有任何目录

hadoop fs -ls /user/test/test_localtion_load

   2.增加分区

hive> alter table test.test_localtion_load add if not exists partition (dt='20170101') location '/user/test/test_localtion_load/20170101';
OK
Time taken: 0.173 seconds

    3.再次查看/user/test/test_localtion_load目录,创建了20170101目录

hadoop fs -ls /user/test/test_localtion_load
drwxr-xr-x   - rd supergroup          0 2017-07-18 11:18 /user/test/test_localtion_load/20170101

三、外部表加载数据

    1.通过select加载数据

hive> insert overwrite table test.test_localtion_load partition (dt='20170101') select 1,2;
hive> select * from test.test_localtion_load where dt=20170101;
OK
1       2       20170101
Time taken: 0.376 seconds, Fetched: 1 row(s)

 2.通过put数据到hdfs加载数据

hive> alter table test.test_localtion_load add  partition (dt='20170102') location '/user/test/test_localtion_load/20170102';
OK
Time taken: 0.213 seconds

hadoop fs -cp /user/test/test_localtion_load/20170101/* /user/test/test_localtion_load/20170102/

hive> select * from test.test_localtion_load where dt=20170102;
OK
1       2       20170102
Time taken: 0.395 seconds, Fetched: 1 row(s)

 

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部