文档章节

hive文件格式

肥皂泡2
 肥皂泡2
发布于 2015/04/26 23:46
字数 702
阅读 34
收藏 0

1、TEXTFILE

create table if not exists xt_format_text(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited
stored as textfile;

  插入数据开启压缩:

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_format_text select * from xt_test3;


2、SEQUENCEFILE

  SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
SequenceFile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,一般建议使用BLOCK压缩

  

create table if not exists xt_format_sequencefile(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited
stored as sequencefile;

插入数据开启压缩:

set hive.exec.compress.output=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
SET mapred.output.compression.type=BLOCK;
insert overwrite table xt_format_sequencefile select * from xt_format_text;


3、RCFILE

RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取

  

create table if not exists xt_format_rcfile(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited  #rcfile时 会自动忽略这个,而使用 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe' 这个SerDe.
stored as rcfile;

插入数据开启压缩:

set hive.exec.compress.output=true; 
set mapred.output.compress=true;#注意:hive不依赖这个设置,只依赖于hive.exec.compress.output的设置值。
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_format_rcfile select * from xt_format_sequencefile ;


4、AVRO

CREATE TABLE xt_format_avro
  COMMENT "just drop the schema right into the HQL"
  ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
  STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
  OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
  TBLPROPERTIES (
    'avro.schema.literal'='{
      "namespace": "com.letv.bigdata.dataplatform",
      "name": "xt_avro_format_test",
      "type": "record",
      "fields": [ { "name":"source","type":"string"},
{ "name":"loginv","type":"string"},
{ "name":"uv","type":"string"},
{ "name":"dt", "type":"string"}
]
}');


5、ORC 文件格式(The Optimized Row Columnar (ORC)

create table if not exists xt_format_orcfile(
source string, 
loginv string, 
uv string, 
dt string)
stored as orc;




实际例子:

CREATE  TABLE xt_tds_did_user_targ_day(
  dvc_id string, 
  user_id string, 
  p1 string, 
  p2 string, 
  p3 string, 
  prod_code string, 
  login_ip string, 
  cntry_name string, 
  area_name string, 
  prov_name string, 
  city_name string, 
  chnl_type string, 
  chnl_type_name string, 
  chnl_code string, 
  chnl_name string, 
  login_ref string, 
  net_type string, 
  oper_sys string, 
  oper_sys_ver string, 
  dvc_brand string, 
  dvc_model string, 
  dvc_type string, 
  dvc_dpi string, 
  brows_name string, 
  login_ts bigint, 
  first_login_date string, 
  first_app_ver string, 
  last_login_date string, 
  last_app_ver string, 
  evil_ip bigint, 
  pv bigint, 
  input_pv bigint, 
  ins_pv bigint, 
  qry_pv bigint, 
  outs_pv bigint, 
  coop_pv bigint, 
  vv bigint, 
  cv bigint, 
  pt bigint, 
  vod_vv bigint, 
  vod_cv bigint, 
  vod_pt bigint, 
  live_vv bigint, 
  live_cv bigint, 
  live_pt bigint, 
  ca_vv bigint, 
  ca_cv bigint, 
  ca_pt bigint, 
  try_vv bigint, 
  try_cv bigint, 
  try_pt bigint, 
  pay_vv bigint, 
  pay_cv bigint, 
  pay_pt bigint, 
  off_vv bigint, 
  off_cv bigint, 
  off_pt bigint, 
  block_ts bigint, 
  drag_ts bigint, 
  drag_ahd_ts bigint, 
  drag_bwd_ts bigint, 
  click_ts bigint, 
  instl_ts bigint, 
  stup_ts bigint, 
  movie_vv bigint, 
  movie_cv bigint, 
  movie_pt bigint, 
  tvp_vv bigint, 
  tvp_cv bigint, 
  tvp_pt bigint, 
  cartn_vv bigint, 
  cartn_cv bigint, 
  cartn_pt bigint, 
  var_vv bigint, 
  var_cv bigint, 
  var_pt bigint, 
  amuse_vv bigint, 
  amuse_cv bigint, 
  amuse_pt bigint, 
  sport_vv bigint, 
  sport_cv bigint, 
  sport_pt bigint, 
  music_vv bigint, 
  music_cv bigint, 
  music_pt bigint, 
  fin_vv bigint, 
  fin_cv bigint, 
  fin_pt bigint, 
  hot_vv bigint, 
  hot_cv bigint, 
  hot_pt bigint)
PARTITIONED BY ( 
  dt string, 
  pf string) 
STORED AS RCFILE;


set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_tds_did_user_targ_day partition(dt='20150425',pf='tv') 
select 
dvc_id, 
user_id, 
p1, 
p2, 
p3, 
prod_code, 
login_ip, 
cntry_name, 
area_name, 
prov_name, 
city_name, 
chnl_type, 
chnl_type_name, 
chnl_code, 
chnl_name, 
login_ref, 
net_type, 
oper_sys, 
oper_sys_ver, 
dvc_brand, 
dvc_model, 
dvc_type, 
dvc_dpi, 
brows_name, 
login_ts, 
first_login_date, 
first_app_ver, 
last_login_date, 
last_app_ver, 
evil_ip, 
pv, 
input_pv, 
ins_pv, 
qry_pv, 
outs_pv, 
coop_pv, 
vv, 
cv, 
pt, 
vod_vv, 
vod_cv, 
vod_pt, 
live_vv, 
live_cv, 
live_pt, 
ca_vv, 
ca_cv, 
ca_pt, 
try_vv, 
try_cv, 
try_pt, 
pay_vv, 
pay_cv, 
pay_pt, 
off_vv, 
off_cv, 
off_pt, 
block_ts, 
drag_ts, 
drag_ahd_ts, 
drag_bwd_ts, 
click_ts, 
instl_ts, 
stup_ts, 
movie_vv, 
movie_cv, 
movie_pt, 
tvp_vv, 
tvp_cv, 
tvp_pt, 
cartn_vv, 
cartn_cv, 
cartn_pt, 
var_vv, 
var_cv, 
var_pt, 
amuse_vv, 
amuse_cv, 
amuse_pt, 
sport_vv, 
sport_cv, 
sport_pt, 
music_vv, 
music_cv, 
music_pt, 
fin_vv, 
fin_cv, 
fin_pt, 
hot_vv, 
hot_cv, 
hot_pt from data_tds.tds_did_user_targ_day where dt='20150425' and pf='tv';















© 著作权归作者所有

共有 人打赏支持
肥皂泡2

肥皂泡2

粉丝 65
博文 149
码字总数 24426
作品 0
昌平
程序员
私信 提问
Impala 如何使用 Hadoop 文件格式

Impala 如何使用 Hadoop 文件格式 Impala 支持几种熟悉的 Apache Hadoop 中使用的文件格式。Impala 可以加载或查询其他 Hadoop 组件如 Pig 或 MapReduce 产生的数据文件,并且 Impala 产生的...

weiqingbin
2014/01/13
0
0
Facebook ORC 文件格式分支--hive-dwrf

hive-dwrf 是作为 Apache Hive 项目一部分的 ORC 文件格式的分支。

孔小菜
2015/04/13
388
0
Hive 随谈(六)– Hive 的扩展特性

Hive 是一个很开放的系统,很多内容都支持用户定制,包括: 文件格式:Text File,Sequence File 内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce...

红薯
2010/04/21
3.1K
1
基于 Hive 的文件格式:RCFile 简介及其应用

Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序...

大数据之路
2014/06/18
0
1
hive的工作机制

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL查询功能。 深入浅出学Hive(二) http://my.oschina.net/dfsj66011/blog/601919 hive的工作...

八戒_o
2015/12/22
58
0

没有更多内容

加载失败,请刷新页面

加载更多

oh-my-zsh 自定义

GitHub 地址 基于 oh-my-zsh 的自定义配置,增加了一些个人常用插件与皮肤。 采用的是 git submodule 来维护,包括 oh-my-zsh,之所以这么搞,主要是手头有多台 linux 需要维护, 每台机器、...

郁也风
今天
5
0
Docker安装踩坑:E_FAIL 0x80004005的解决

参考 菜鸟教程--Windows Docker 安装 http://www.runoob.com/docker/windows-docker-install.html 官方文档-Install Docker Toolbox on Windows https://docs.docker.com/toolbox/toolbox_in......

karma123
今天
5
0
js垃圾回收机制和引起内存泄漏的操作

JS的垃圾回收机制了解吗? Js具有自动垃圾回收机制。垃圾收集器会按照固定的时间间隔周期性的执行。 JS中最常见的垃圾回收方式是标记清除。 工作原理:是当变量进入环境时,将这个变量标记为“...

Jack088
昨天
17
0
大数据教程(10.1)倒排索引建立

前面博主介绍了sql中join功能的大数据实现,本节将继续为小伙伴们分享倒排索引的建立。 一、需求 在很多项目中,我们需要对我们的文档建立索引(如:论坛帖子);我们需要记录某个词在各个文...

em_aaron
昨天
27
0
"errcode": 41001, "errmsg": "access_token missing hint: [w.ILza05728877!]"

Postman获取微信小程序码的时候报错, errcode: 41001, errmsg: access_token missing hint 查看小程序开发api指南,原来access_token是直接当作parameter的(写在url之后),scene参数一定要...

两广总督bogang
昨天
33
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部