文档章节

hive文件格式

肥皂泡2
 肥皂泡2
发布于 2015/04/26 23:46
字数 702
阅读 34
收藏 0

1、TEXTFILE

create table if not exists xt_format_text(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited
stored as textfile;

  插入数据开启压缩:

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_format_text select * from xt_test3;


2、SEQUENCEFILE

  SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
SequenceFile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,一般建议使用BLOCK压缩

  

create table if not exists xt_format_sequencefile(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited
stored as sequencefile;

插入数据开启压缩:

set hive.exec.compress.output=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
SET mapred.output.compression.type=BLOCK;
insert overwrite table xt_format_sequencefile select * from xt_format_text;


3、RCFILE

RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取

  

create table if not exists xt_format_rcfile(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited  #rcfile时 会自动忽略这个,而使用 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe' 这个SerDe.
stored as rcfile;

插入数据开启压缩:

set hive.exec.compress.output=true; 
set mapred.output.compress=true;#注意:hive不依赖这个设置,只依赖于hive.exec.compress.output的设置值。
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_format_rcfile select * from xt_format_sequencefile ;


4、AVRO

CREATE TABLE xt_format_avro
  COMMENT "just drop the schema right into the HQL"
  ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
  STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
  OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
  TBLPROPERTIES (
    'avro.schema.literal'='{
      "namespace": "com.letv.bigdata.dataplatform",
      "name": "xt_avro_format_test",
      "type": "record",
      "fields": [ { "name":"source","type":"string"},
{ "name":"loginv","type":"string"},
{ "name":"uv","type":"string"},
{ "name":"dt", "type":"string"}
]
}');


5、ORC 文件格式(The Optimized Row Columnar (ORC)

create table if not exists xt_format_orcfile(
source string, 
loginv string, 
uv string, 
dt string)
stored as orc;




实际例子:

CREATE  TABLE xt_tds_did_user_targ_day(
  dvc_id string, 
  user_id string, 
  p1 string, 
  p2 string, 
  p3 string, 
  prod_code string, 
  login_ip string, 
  cntry_name string, 
  area_name string, 
  prov_name string, 
  city_name string, 
  chnl_type string, 
  chnl_type_name string, 
  chnl_code string, 
  chnl_name string, 
  login_ref string, 
  net_type string, 
  oper_sys string, 
  oper_sys_ver string, 
  dvc_brand string, 
  dvc_model string, 
  dvc_type string, 
  dvc_dpi string, 
  brows_name string, 
  login_ts bigint, 
  first_login_date string, 
  first_app_ver string, 
  last_login_date string, 
  last_app_ver string, 
  evil_ip bigint, 
  pv bigint, 
  input_pv bigint, 
  ins_pv bigint, 
  qry_pv bigint, 
  outs_pv bigint, 
  coop_pv bigint, 
  vv bigint, 
  cv bigint, 
  pt bigint, 
  vod_vv bigint, 
  vod_cv bigint, 
  vod_pt bigint, 
  live_vv bigint, 
  live_cv bigint, 
  live_pt bigint, 
  ca_vv bigint, 
  ca_cv bigint, 
  ca_pt bigint, 
  try_vv bigint, 
  try_cv bigint, 
  try_pt bigint, 
  pay_vv bigint, 
  pay_cv bigint, 
  pay_pt bigint, 
  off_vv bigint, 
  off_cv bigint, 
  off_pt bigint, 
  block_ts bigint, 
  drag_ts bigint, 
  drag_ahd_ts bigint, 
  drag_bwd_ts bigint, 
  click_ts bigint, 
  instl_ts bigint, 
  stup_ts bigint, 
  movie_vv bigint, 
  movie_cv bigint, 
  movie_pt bigint, 
  tvp_vv bigint, 
  tvp_cv bigint, 
  tvp_pt bigint, 
  cartn_vv bigint, 
  cartn_cv bigint, 
  cartn_pt bigint, 
  var_vv bigint, 
  var_cv bigint, 
  var_pt bigint, 
  amuse_vv bigint, 
  amuse_cv bigint, 
  amuse_pt bigint, 
  sport_vv bigint, 
  sport_cv bigint, 
  sport_pt bigint, 
  music_vv bigint, 
  music_cv bigint, 
  music_pt bigint, 
  fin_vv bigint, 
  fin_cv bigint, 
  fin_pt bigint, 
  hot_vv bigint, 
  hot_cv bigint, 
  hot_pt bigint)
PARTITIONED BY ( 
  dt string, 
  pf string) 
STORED AS RCFILE;


set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_tds_did_user_targ_day partition(dt='20150425',pf='tv') 
select 
dvc_id, 
user_id, 
p1, 
p2, 
p3, 
prod_code, 
login_ip, 
cntry_name, 
area_name, 
prov_name, 
city_name, 
chnl_type, 
chnl_type_name, 
chnl_code, 
chnl_name, 
login_ref, 
net_type, 
oper_sys, 
oper_sys_ver, 
dvc_brand, 
dvc_model, 
dvc_type, 
dvc_dpi, 
brows_name, 
login_ts, 
first_login_date, 
first_app_ver, 
last_login_date, 
last_app_ver, 
evil_ip, 
pv, 
input_pv, 
ins_pv, 
qry_pv, 
outs_pv, 
coop_pv, 
vv, 
cv, 
pt, 
vod_vv, 
vod_cv, 
vod_pt, 
live_vv, 
live_cv, 
live_pt, 
ca_vv, 
ca_cv, 
ca_pt, 
try_vv, 
try_cv, 
try_pt, 
pay_vv, 
pay_cv, 
pay_pt, 
off_vv, 
off_cv, 
off_pt, 
block_ts, 
drag_ts, 
drag_ahd_ts, 
drag_bwd_ts, 
click_ts, 
instl_ts, 
stup_ts, 
movie_vv, 
movie_cv, 
movie_pt, 
tvp_vv, 
tvp_cv, 
tvp_pt, 
cartn_vv, 
cartn_cv, 
cartn_pt, 
var_vv, 
var_cv, 
var_pt, 
amuse_vv, 
amuse_cv, 
amuse_pt, 
sport_vv, 
sport_cv, 
sport_pt, 
music_vv, 
music_cv, 
music_pt, 
fin_vv, 
fin_cv, 
fin_pt, 
hot_vv, 
hot_cv, 
hot_pt from data_tds.tds_did_user_targ_day where dt='20150425' and pf='tv';















© 著作权归作者所有

共有 人打赏支持
肥皂泡2

肥皂泡2

粉丝 65
博文 143
码字总数 21416
作品 0
昌平
程序员
Impala 如何使用 Hadoop 文件格式

Impala 如何使用 Hadoop 文件格式 Impala 支持几种熟悉的 Apache Hadoop 中使用的文件格式。Impala 可以加载或查询其他 Hadoop 组件如 Pig 或 MapReduce 产生的数据文件,并且 Impala 产生的...

weiqingbin
2014/01/13
0
0
Hive 随谈(六)– Hive 的扩展特性

Hive 是一个很开放的系统,很多内容都支持用户定制,包括: 文件格式:Text File,Sequence File 内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce...

红薯
2010/04/21
3K
1
基于 Hive 的文件格式:RCFile 简介及其应用

Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序...

大数据之路
2014/06/18
0
1
Facebook ORC 文件格式分支--hive-dwrf

hive-dwrf 是作为 Apache Hive 项目一部分的 ORC 文件格式的分支。

孔小菜
2015/04/13
388
0
Impala 表使用 Avro 文件格式(翻译)

Impala 表使用 Avro 文件格式 Cloudera Impala 支持数据文件使用 Avro 文件格式的表。Impala 可以查询 Avro 表,但目前不支持创建和插入数据。对于这些操作,使用 Hive 处理,然后切换回 Im...

weiqingbin
2014/01/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

github精选:微信小程序开发技巧(12月31日更新)2016

框架部分 所有页面都需要在 app.json 文件中注册在 pages 数组中,注册格式为:"路径/文件名" 注:文件名无需添加扩展名 app.josn 中的 pages 数组中的第一个页面为小程序的启动页 每个页面的...

阿K1225
18分钟前
1
0
OSChina 周日乱弹 —— 小心着凉 @红薯

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @莱布妮子:5.33起,其声呜呜然,如怨如慕,如泣如诉。余音袅袅,不绝如缕。分享Arch Enemy的单曲《Bridge Of Destiny (2009)》 《Bridge Of...

小小编辑
今天
331
4
what f,,

anlve
今天
10
0
初级开发-编程题

` public static void main(String[] args) { System.out.println(changeStrToUpperCase("user_name_abc")); System.out.println(changeStrToLowerCase(changeStrToUpperCase("user_name_abc......

小池仔
今天
15
0
现场看路演了!

HiBlock
昨天
28
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部