文档章节

为hive任务启用压缩功能

肥皂泡2
 肥皂泡2
发布于 2015/04/26 21:48
字数 155
阅读 2053
收藏 1

1、为map中间输出启用压缩。

      一般对于中间输出压缩采用低压缩比,高压缩解压缩速度的压缩算法,如LZO,Snappy 

    set hive.exec.compress.intermediate=true;

    set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

    

2、为最终输出结果启用压缩

      需要注意的是:有些压缩格式是不支持切分的,这样后续mapre-reduce任务将不能并行处理。

      set hive.exec.compress.output=true;

      set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

3、为输出使用sequence file 文件格式

      create table tname stored as sequencefile;

      为sequence file 文件开启压缩

      set mapred.output.compression.type=BLOCK;

      

常见的压缩格式:

DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip org.apache.hadoop.io.compress.BZip2Codec
Snappy org.apache.hadoop.io.compress.SnappyCodec



© 著作权归作者所有

共有 人打赏支持
肥皂泡2

肥皂泡2

粉丝 65
博文 143
码字总数 21416
作品 0
昌平
程序员
hive 连接url及acid事务配置

apache hive: 数据仓库,通过sql语句很方便的读、写、管理分布式系统中的大数据集,hadoop上层的工具。 1.通过sql语句访问数据,可以支持ETL(extract/transform/load)、报表和数据分析等。...

枯藤KT
2016/08/02
37
0
简单查询设置Fetch task 来不启用Mapreduce job的三种方式

简单查询的Fetch task 功能:从Hive0.10.0版本开始支持 配置方式: set.hive.fetch.task.conversion=more; ---开启了Fetch任务,所以对于上述简单的列查询不在启用MapReduce job! hive --h...

八戒_o
2016/03/30
17
0
Hive Fetch Task

show tables; metastore->>mysql; select * from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; -》不起job select dpid from bi.dpodsdpunsubscribe where hpstatda......

rathan0
2016/01/15
241
0
【十八掌●武功篇】第十掌:Hive之原理与优化

这一篇博文是【大数据技术●降龙十八掌】系列文章的其中一篇,点击查看目录:大数据技术●降龙十八掌 小系列列表 【十八掌●武功篇】第十掌:Hive之基本语法 【十八掌●武功篇】第十掌:Hiv...

chybin500
2017/11/17
0
0
Impala 表使用 SequenceFile 文件格式(翻译)

Impala 表使用 SequenceFile 文件格式 Cloudera Impala 支持使用 SequenceFile 数据文件。 参加以下章节了解 Impala 表使用 SequenceFile 数据文件的详情: 创建 SequenceFile 表并加载数据 ...

weiqingbin
2014/01/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

angular 解决其他电脑不能访问的问题。

ng serve --host 0.0.0.0 --disable-host-check

miaojiangmin
今天
1
0
优酷视频文件怎么转换格式

  以前在优酷上下载视频都只是在手机上观看,但随着科技的发展,对于视频的要求也逐渐增多,不再只是观看视频那么简单,在精彩的部分还会将其单独分割出来,然后进行视频剪辑,可以做出我们...

萤火的萤火
今天
0
0
数据结构:散列

在一个数据结构中查找key元素,用顺序查找、二分查找都需要经过一系列关键之比较才能查找到结果,平均查找长度与数据量有关,元素越多比较次数就越多。 如果根据元素的关键字就能知道元素的存...

京一
今天
1
0
Apache RocketMQ 正式开源分布式事务消息

近日,Apache RocketMQ 社区正式发布4.3版本。此次发布不仅包括提升性能,减少内存使用等原有特性增强,还修复了部分社区提出的若干问题,更重要的是该版本开源了社区最为关心的分布式事务消...

阿里云云栖社区
今天
32
0
使用JavaScript和MQTT开发物联网应用

如果说Java和C#哪个是最好的开发语言,无疑会挑起程序员之间的相互怒怼,那如果说JavaScript是动态性最好的语言,相信大家都不会有太大的争议。随着越来越多的硬件平台和开发板开始支持JavaS...

少年不搬砖老大徒伤悲
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部