文档章节

为hive任务启用压缩功能

肥皂泡2
 肥皂泡2
发布于 2015/04/26 21:48
字数 155
阅读 2031
收藏 1
点赞 0
评论 0

1、为map中间输出启用压缩。

      一般对于中间输出压缩采用低压缩比,高压缩解压缩速度的压缩算法,如LZO,Snappy 

    set hive.exec.compress.intermediate=true;

    set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

    

2、为最终输出结果启用压缩

      需要注意的是:有些压缩格式是不支持切分的,这样后续mapre-reduce任务将不能并行处理。

      set hive.exec.compress.output=true;

      set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

3、为输出使用sequence file 文件格式

      create table tname stored as sequencefile;

      为sequence file 文件开启压缩

      set mapred.output.compression.type=BLOCK;

      

常见的压缩格式:

DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip org.apache.hadoop.io.compress.BZip2Codec
Snappy org.apache.hadoop.io.compress.SnappyCodec



© 著作权归作者所有

共有 人打赏支持
肥皂泡2

肥皂泡2

粉丝 65
博文 139
码字总数 21416
作品 0
昌平
程序员
hive 连接url及acid事务配置

apache hive: 数据仓库,通过sql语句很方便的读、写、管理分布式系统中的大数据集,hadoop上层的工具。 1.通过sql语句访问数据,可以支持ETL(extract/transform/load)、报表和数据分析等。...

枯藤KT ⋅ 2016/08/02 ⋅ 0

简单查询设置Fetch task 来不启用Mapreduce job的三种方式

简单查询的Fetch task 功能:从Hive0.10.0版本开始支持 配置方式: set.hive.fetch.task.conversion=more; ---开启了Fetch任务,所以对于上述简单的列查询不在启用MapReduce job! hive --h...

八戒_o ⋅ 2016/03/30 ⋅ 0

Hive Fetch Task

show tables; metastore->>mysql; select * from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; -》不起job select dpid from bi.dpodsdpunsubscribe where hpstatda......

rathan0 ⋅ 2016/01/15 ⋅ 0

【十八掌●武功篇】第十掌:Hive之原理与优化

这一篇博文是【大数据技术●降龙十八掌】系列文章的其中一篇,点击查看目录:大数据技术●降龙十八掌 小系列列表 【十八掌●武功篇】第十掌:Hive之基本语法 【十八掌●武功篇】第十掌:Hiv...

chybin500 ⋅ 2017/11/17 ⋅ 0

Impala 表使用 RCFile 文件格式(翻译)

Impala 表使用 RCFile 文件格式 Cloudera Impala 支持使用 RCFile 数据文件。 查询一下章节了解 Impala 表使用 RCFile 数据文件的详情: 创建RCFile 表并加载数据 RCFile 表启用压缩 创建 RC...

weiqingbin ⋅ 2014/01/20 ⋅ 0

Impala 表使用 SequenceFile 文件格式(翻译)

Impala 表使用 SequenceFile 文件格式 Cloudera Impala 支持使用 SequenceFile 数据文件。 参加以下章节了解 Impala 表使用 SequenceFile 数据文件的详情: 创建 SequenceFile 表并加载数据 ...

weiqingbin ⋅ 2014/01/20 ⋅ 0

Hadoop-2.2.0使用lzo压缩文件作为输入文件

 在 《Hadoop 2.2.0安装和配置lzo》 文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据...

蓝狐乐队 ⋅ 2014/04/22 ⋅ 0

hive配置参数说明

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) 默认值:true hive.exec.mode.local.auto.inputbytes.max 如果hive.exec.mode.local.au...

脸大的都是胖纸 ⋅ 2015/04/22 ⋅ 0

HIVE高级与企业优化

HiveServer2 参考地址:http://blog.csdn.net/czw698/article/details/44394923 1、启动hiveserver2服务 $HIVE_HOME/bin/hive --service hiveserver2 2、测试连接是否以连上 不用写jdbc程序,......

qi49125 ⋅ 2017/11/14 ⋅ 0

Impala 表使用 Avro 文件格式(翻译)

Impala 表使用 Avro 文件格式 Cloudera Impala 支持数据文件使用 Avro 文件格式的表。Impala 可以查询 Avro 表,但目前不支持创建和插入数据。对于这些操作,使用 Hive 处理,然后切换回 Im...

weiqingbin ⋅ 2014/01/20 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Spring发展历程总结

转自与 https://www.cnblogs.com/RunForLove/p/4641672.html 目前很多公司的架构,从Struts2迁移到了SpringMVC。你有想过为什么不使用Servlet+JSP来构建Java web项目,而是采用SpringMVC呢?...

onedotdot ⋅ 22分钟前 ⋅ 0

Python模块/包/库安装(6种方法)

Python模块/包/库安装(6种方法) 冰颖机器人 2016-11-29 21:33:26 一、方法1: 单文件模块 直接把文件拷贝到 $python_dir/Lib 二、方法2: 多文件模块,带setup.py 下载模块包(压缩文件zip...

cswangyx ⋅ 41分钟前 ⋅ 0

零基础学习大数据人工智能,学习路线篇!系统规划大数据之路?

大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经...

董黎明 ⋅ 50分钟前 ⋅ 0

openJdk和sun jdk的区别

使用过LINUX的人都应该知道,在大多数LINUX发行版本里,内置或者通过软件源安装JDK的话,都是安装的OpenJDK, 那么到底什么是OpenJDK,它与SUN JDK有什么关系和区别呢? 历史上的原因是,Ope...

jason_kiss ⋅ 59分钟前 ⋅ 0

梳理

Redux 是 JavaScript 状态容器,提供可预测化的状态管理。 它是JS的状态容器,是一种解决问题的方式,所以即可以用于 react 也可以用于 vue。 需要理解其思想及实现方式。 应用中所有的 stat...

分秒 ⋅ 今天 ⋅ 0

Java 后台判断是否为ajax请求

/** * 是否是Ajax请求 * @param request * @return */public static boolean isAjax(ServletRequest request){return "XMLHttpRequest".equalsIgnoreCase(((HttpServletReques......

JavaSon712 ⋅ 今天 ⋅ 0

Redis 单线程 为何却需要事务处理并发问题

Redis是单线程处理,也就是命令会顺序执行。那么为什么会存在并发问题呢? 个人理解是,虽然redis是单线程,但是可以同时有多个客户端访问,每个客户端会有 一个线程。客户端访问之间存在竞争...

码代码的小司机 ⋅ 今天 ⋅ 0

到底会改名吗?微软GVFS 改名之争

微软去年透露了 Git Virtual File System(GVFS)项目,GVFS 是 Git 版本控制系统的一个开源插件,允许 Git 处理 TB 规模的代码库,比如 270 GB 的 Windows 代码库。该项目公布之初就引发了争...

linux-tao ⋅ 今天 ⋅ 0

笔试题之Java基础部分【简】【二】

1.静态变量和实例变量的区别 在语法定义上的区别:静态变量前要加static关键字,而实例变量前则不加。在程序运行时的区别:实例变量属于某个对象的属性,必须创建了实例对象,其中的实例变...

anlve ⋅ 今天 ⋅ 0

Lombok简单介绍及使用

官网 通过简单注解来精简代码达到消除冗长代码的目的 优点 提高编程效率 使代码更简洁 消除冗长代码 避免修改字段名字时忘记修改方法名 4.idea中安装lombnok pom.xml引入 <dependency> <grou...

to_ln ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部