文档章节

为hive任务启用压缩功能

肥皂泡2
 肥皂泡2
发布于 2015/04/26 21:48
字数 155
阅读 2078
收藏 1

1、为map中间输出启用压缩。

      一般对于中间输出压缩采用低压缩比,高压缩解压缩速度的压缩算法,如LZO,Snappy 

    set hive.exec.compress.intermediate=true;

    set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

    

2、为最终输出结果启用压缩

      需要注意的是:有些压缩格式是不支持切分的,这样后续mapre-reduce任务将不能并行处理。

      set hive.exec.compress.output=true;

      set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

3、为输出使用sequence file 文件格式

      create table tname stored as sequencefile;

      为sequence file 文件开启压缩

      set mapred.output.compression.type=BLOCK;

      

常见的压缩格式:

DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip org.apache.hadoop.io.compress.BZip2Codec
Snappy org.apache.hadoop.io.compress.SnappyCodec



© 著作权归作者所有

共有 人打赏支持
肥皂泡2

肥皂泡2

粉丝 65
博文 143
码字总数 21416
作品 0
昌平
程序员
hive 连接url及acid事务配置

apache hive: 数据仓库,通过sql语句很方便的读、写、管理分布式系统中的大数据集,hadoop上层的工具。 1.通过sql语句访问数据,可以支持ETL(extract/transform/load)、报表和数据分析等。...

枯藤KT
2016/08/02
37
0
简单查询设置Fetch task 来不启用Mapreduce job的三种方式

简单查询的Fetch task 功能:从Hive0.10.0版本开始支持 配置方式: set.hive.fetch.task.conversion=more; ---开启了Fetch任务,所以对于上述简单的列查询不在启用MapReduce job! hive --h...

八戒_o
2016/03/30
17
0
Hive Fetch Task

show tables; metastore->>mysql; select * from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; -》不起job select dpid from bi.dpodsdpunsubscribe where hpstatda......

rathan0
2016/01/15
241
0
【十八掌●武功篇】第十掌:Hive之原理与优化

这一篇博文是【大数据技术●降龙十八掌】系列文章的其中一篇,点击查看目录:大数据技术●降龙十八掌 小系列列表 【十八掌●武功篇】第十掌:Hive之基本语法 【十八掌●武功篇】第十掌:Hiv...

chybin500
2017/11/17
0
0
Impala 表使用 SequenceFile 文件格式(翻译)

Impala 表使用 SequenceFile 文件格式 Cloudera Impala 支持使用 SequenceFile 数据文件。 参加以下章节了解 Impala 表使用 SequenceFile 数据文件的详情: 创建 SequenceFile 表并加载数据 ...

weiqingbin
2014/01/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

linux 系统的运行级别

运行级别 运行级别 | 含义 0 关机 1 单用户模式,可以想象为windows 的安全模式,主要用于修复系统 2 不完全的命令模式,不含NFS服务 3 完全的命令行模式,就是标准的字符界面 4 系统保留 5 ...

Linux学习笔记
34分钟前
0
0
学习设计模式——命令模式

任何模式的出现,都是为了解决一些特定的场景的耦合问题,以达到对修改封闭,对扩展开放的效果。命令模式也不例外: 命令模式是为了解决命令的请求者和命令的实现者之间的耦合关系。 解决了这...

江左煤郎
42分钟前
2
0
字典树收集(非线程安全,后续做线程安全改进)

将500W个单词放进一个数据结构进行存储,然后进行快速比对,判断一个单词是不是这个500W单词之中的;来了一个单词前缀,给出500w个单词中有多少个单词是该前缀. 1、这个需求首先需要设计好数据结...

算法之名
昨天
10
0
GRASP设计模式

此文参考了这篇博客,建议读者阅读原文。 面向对象(Object-Oriented,OO)是当下软件开发的主流方法。在OO分析与设计中,我们首先从问题领域中抽象出领域模型,在领域模型中以适当的粒度归纳...

克虏伯
昨天
0
0
Coding and Paper Letter(四十)

资源整理。 1 Coding: 1.Tomislav Hengl撰写的非官方作者指南:Michael Gould•Wouter Gerritsma。 UnofficialGuide4Authors 2.R语言包rwrfhydro,社区贡献的工具箱,用于管理,分析和可视化...

胖胖雕
昨天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部