文档章节

hive文件格式

肥皂泡2
 肥皂泡2
发布于 2015/04/26 23:46
字数 702
阅读 34
收藏 0
点赞 0
评论 0

1、TEXTFILE

create table if not exists xt_format_text(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited
stored as textfile;

  插入数据开启压缩:

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_format_text select * from xt_test3;


2、SEQUENCEFILE

  SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
SequenceFile支持三种压缩选择:NONE,RECORD,BLOCK。Record压缩率低,一般建议使用BLOCK压缩

  

create table if not exists xt_format_sequencefile(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited
stored as sequencefile;

插入数据开启压缩:

set hive.exec.compress.output=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
SET mapred.output.compression.type=BLOCK;
insert overwrite table xt_format_sequencefile select * from xt_format_text;


3、RCFILE

RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取

  

create table if not exists xt_format_rcfile(
source string, 
loginv string, 
uv string, 
dt string)
row format delimited  #rcfile时 会自动忽略这个,而使用 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe' 这个SerDe.
stored as rcfile;

插入数据开启压缩:

set hive.exec.compress.output=true; 
set mapred.output.compress=true;#注意:hive不依赖这个设置,只依赖于hive.exec.compress.output的设置值。
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_format_rcfile select * from xt_format_sequencefile ;


4、AVRO

CREATE TABLE xt_format_avro
  COMMENT "just drop the schema right into the HQL"
  ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
  STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
  OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
  TBLPROPERTIES (
    'avro.schema.literal'='{
      "namespace": "com.letv.bigdata.dataplatform",
      "name": "xt_avro_format_test",
      "type": "record",
      "fields": [ { "name":"source","type":"string"},
{ "name":"loginv","type":"string"},
{ "name":"uv","type":"string"},
{ "name":"dt", "type":"string"}
]
}');


5、ORC 文件格式(The Optimized Row Columnar (ORC)

create table if not exists xt_format_orcfile(
source string, 
loginv string, 
uv string, 
dt string)
stored as orc;




实际例子:

CREATE  TABLE xt_tds_did_user_targ_day(
  dvc_id string, 
  user_id string, 
  p1 string, 
  p2 string, 
  p3 string, 
  prod_code string, 
  login_ip string, 
  cntry_name string, 
  area_name string, 
  prov_name string, 
  city_name string, 
  chnl_type string, 
  chnl_type_name string, 
  chnl_code string, 
  chnl_name string, 
  login_ref string, 
  net_type string, 
  oper_sys string, 
  oper_sys_ver string, 
  dvc_brand string, 
  dvc_model string, 
  dvc_type string, 
  dvc_dpi string, 
  brows_name string, 
  login_ts bigint, 
  first_login_date string, 
  first_app_ver string, 
  last_login_date string, 
  last_app_ver string, 
  evil_ip bigint, 
  pv bigint, 
  input_pv bigint, 
  ins_pv bigint, 
  qry_pv bigint, 
  outs_pv bigint, 
  coop_pv bigint, 
  vv bigint, 
  cv bigint, 
  pt bigint, 
  vod_vv bigint, 
  vod_cv bigint, 
  vod_pt bigint, 
  live_vv bigint, 
  live_cv bigint, 
  live_pt bigint, 
  ca_vv bigint, 
  ca_cv bigint, 
  ca_pt bigint, 
  try_vv bigint, 
  try_cv bigint, 
  try_pt bigint, 
  pay_vv bigint, 
  pay_cv bigint, 
  pay_pt bigint, 
  off_vv bigint, 
  off_cv bigint, 
  off_pt bigint, 
  block_ts bigint, 
  drag_ts bigint, 
  drag_ahd_ts bigint, 
  drag_bwd_ts bigint, 
  click_ts bigint, 
  instl_ts bigint, 
  stup_ts bigint, 
  movie_vv bigint, 
  movie_cv bigint, 
  movie_pt bigint, 
  tvp_vv bigint, 
  tvp_cv bigint, 
  tvp_pt bigint, 
  cartn_vv bigint, 
  cartn_cv bigint, 
  cartn_pt bigint, 
  var_vv bigint, 
  var_cv bigint, 
  var_pt bigint, 
  amuse_vv bigint, 
  amuse_cv bigint, 
  amuse_pt bigint, 
  sport_vv bigint, 
  sport_cv bigint, 
  sport_pt bigint, 
  music_vv bigint, 
  music_cv bigint, 
  music_pt bigint, 
  fin_vv bigint, 
  fin_cv bigint, 
  fin_pt bigint, 
  hot_vv bigint, 
  hot_cv bigint, 
  hot_pt bigint)
PARTITIONED BY ( 
  dt string, 
  pf string) 
STORED AS RCFILE;


set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
insert overwrite table xt_tds_did_user_targ_day partition(dt='20150425',pf='tv') 
select 
dvc_id, 
user_id, 
p1, 
p2, 
p3, 
prod_code, 
login_ip, 
cntry_name, 
area_name, 
prov_name, 
city_name, 
chnl_type, 
chnl_type_name, 
chnl_code, 
chnl_name, 
login_ref, 
net_type, 
oper_sys, 
oper_sys_ver, 
dvc_brand, 
dvc_model, 
dvc_type, 
dvc_dpi, 
brows_name, 
login_ts, 
first_login_date, 
first_app_ver, 
last_login_date, 
last_app_ver, 
evil_ip, 
pv, 
input_pv, 
ins_pv, 
qry_pv, 
outs_pv, 
coop_pv, 
vv, 
cv, 
pt, 
vod_vv, 
vod_cv, 
vod_pt, 
live_vv, 
live_cv, 
live_pt, 
ca_vv, 
ca_cv, 
ca_pt, 
try_vv, 
try_cv, 
try_pt, 
pay_vv, 
pay_cv, 
pay_pt, 
off_vv, 
off_cv, 
off_pt, 
block_ts, 
drag_ts, 
drag_ahd_ts, 
drag_bwd_ts, 
click_ts, 
instl_ts, 
stup_ts, 
movie_vv, 
movie_cv, 
movie_pt, 
tvp_vv, 
tvp_cv, 
tvp_pt, 
cartn_vv, 
cartn_cv, 
cartn_pt, 
var_vv, 
var_cv, 
var_pt, 
amuse_vv, 
amuse_cv, 
amuse_pt, 
sport_vv, 
sport_cv, 
sport_pt, 
music_vv, 
music_cv, 
music_pt, 
fin_vv, 
fin_cv, 
fin_pt, 
hot_vv, 
hot_cv, 
hot_pt from data_tds.tds_did_user_targ_day where dt='20150425' and pf='tv';















© 著作权归作者所有

共有 人打赏支持
肥皂泡2

肥皂泡2

粉丝 65
博文 139
码字总数 21416
作品 0
昌平
程序员
Impala 如何使用 Hadoop 文件格式

Impala 如何使用 Hadoop 文件格式 Impala 支持几种熟悉的 Apache Hadoop 中使用的文件格式。Impala 可以加载或查询其他 Hadoop 组件如 Pig 或 MapReduce 产生的数据文件,并且 Impala 产生的...

weiqingbin ⋅ 2014/01/13 ⋅ 0

Hive 随谈(六)– Hive 的扩展特性

Hive 是一个很开放的系统,很多内容都支持用户定制,包括: 文件格式:Text File,Sequence File 内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce...

红薯 ⋅ 2010/04/21 ⋅ 1

基于 Hive 的文件格式:RCFile 简介及其应用

Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序...

xrzs ⋅ 2014/06/18 ⋅ 1

Impala 表使用 Avro 文件格式(翻译)

Impala 表使用 Avro 文件格式 Cloudera Impala 支持数据文件使用 Avro 文件格式的表。Impala 可以查询 Avro 表,但目前不支持创建和插入数据。对于这些操作,使用 Hive 处理,然后切换回 Im...

weiqingbin ⋅ 2014/01/20 ⋅ 0

hive建立表存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式 例如: [plain] view plaincopy > CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELD......

蓝狐乐队 ⋅ 2014/09/26 ⋅ 1

Facebook ORC 文件格式分支--hive-dwrf

hive-dwrf 是作为 Apache Hive 项目一部分的 ORC 文件格式的分支。

孔小菜 ⋅ 2015/04/13 ⋅ 0

hive的工作机制

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL查询功能。 深入浅出学Hive(二) http://my.oschina.net/dfsj66011/blog/601919 hive的工作...

八戒_o ⋅ 2015/12/22 ⋅ 0

Hive学习之修改表、分区、列

修改表的语句允许改变现有表的结构,通过该语句可以增加列/分区,修改SerDe,增加表和SerDe的属性或者重命名表。与之类似,修改分区的语句可以改变指定分区的属性。 重命名表 ALTER TABLE ta...

强子哥哥 ⋅ 2016/04/20 ⋅ 0

HAWQ技术解析(九) —— 外部数据

HAWQ不但可以读写自身系统中的表,而且能够访问HDFS、Hive、HBase等外部系统的数据。这是通过一个名为PXF的扩展框架实现的。大部分外部数据是以HAWQ外部表的形式进行访问的,但对于Hive,除外...

wzy0623 ⋅ 2017/03/23 ⋅ 0

Impala 表使用 RCFile 文件格式(翻译)

Impala 表使用 RCFile 文件格式 Cloudera Impala 支持使用 RCFile 数据文件。 查询一下章节了解 Impala 表使用 RCFile 数据文件的详情: 创建RCFile 表并加载数据 RCFile 表启用压缩 创建 RC...

weiqingbin ⋅ 2014/01/20 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Python爬虫,抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿“德州扒鸡”...

python玩家 ⋅ 20分钟前 ⋅ 0

MySQL 内核深度优化

MYSQL数据库适用场景广泛,相较于Oracle、DB2性价比更高,Web网站、日志系统、数据仓库等场景都有MYSQL用武之地,但是也存在对于事务性支持不太好(MySQL 5.5版本开始默认引擎才是InnoDB事务...

java高级架构牛人 ⋅ 43分钟前 ⋅ 0

用户登录信息-钉子效果(基于jquery2.0)

本js效果使用jquery2.0,清晰的分解用户登录信息的(钉子效果),该效果直接用在作者网站(www.phpkhbd.com)上。 里面的难点有:定时器,延时。 大致效果如下: 一开始: 鼠标放上去的时候:...

宁哥实战课堂 ⋅ 44分钟前 ⋅ 0

解决yum安装报错Protected multilib versions

使用yum安装报错Protected multilib versions原因是因为多个库不能共存,不过更新的话也并不行,但是可以在安装命令后面加上如下一段命令: --setopt=protected_multilib=false 案例: 比如需...

北岩 ⋅ 55分钟前 ⋅ 0

为什么要学习Typescript???

简单来说 目前的typescript就是未来的javascript 为什么?? 这要从ECMA-262标准的第4版说起 对了 我们说的ES5 其实是ECMAScript3.1这个替代性建议被扶正了而已... 那么 第4版标准是什么? 看看...

hang1989 ⋅ 59分钟前 ⋅ 0

linux安装ipfs

一、下载ipfs # cd /usr/local/ipfs/ # wget https://dist.ipfs.io/go-ipfs/v0.4.15/go-ipfs_v0.4.15_linux-amd64.tar.gz # tar -zxvf go-ipfs_v0.4.15_linux-amd64.tar.gz 二、安装ipfs # ......

八戒八戒八戒 ⋅ 今天 ⋅ 0

jvm程序执行慢诊断手册

生产环境最多的几种事故之一就是程序执行慢,如果是web服务的话,表现就是响应时间长。本文分享,从业多年形成的排查守则。 诊断步骤 系统资源查看 首先是系统资源查看,而且必须是在第一步。...

xpbob ⋅ 今天 ⋅ 0

YII2 advanced 高级版本项目搭建-添加API应用以及多应用

一、YII安裝 安裝yii可以用composer安裝,也可以在yii中文社区下载归档文件安装 composer安装就不介绍了,因为要安装composer,比较麻烦,当然安装了composer是最好的,以后安装yii的插件要用...

botkenni ⋅ 今天 ⋅ 0

在jdk1.8的环境下模拟永久代内存溢出

相信不少小伙伴在看深入理解Java虚拟机的时候,作者给我们举例一个demo来发生PermGen space 1、通过List不断添加String.intern(); 2、通过设置对应的-XX:PermSize与-XX:MaxPermSize(更快看到...

虾几把写 ⋅ 今天 ⋅ 0

开发OpenDaylight组件的完整流程

在前面介绍学习了OpenDaylight的几个重要模块后,这里再来介绍下完整开发一个模块的过程。 OSGI的bundles提供被其他OSGI组件调用的服务。这个教程中展示的是Data Packet Service去解析数据包...

wangxuwei ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部