文档章节

关于hive优化的补充和重新描述

厮以为
 厮以为
发布于 2015/12/27 23:35
字数 281
阅读 44
收藏 2

join优化

    1 小表在保证在map段join过滤大量数据

    2 自动开启map段join ,设置hive.mapjoin.smalltable.filesize大小,在这范围内为小表自动mapjoin

    3 自联结采用group by 替换join操作

Reducer数量 

    了解:hive.exec.reducers.bytes.per.reducer(默认是1GB)和hive.exec.reducer.max来决定reducer的数量

    reducer数量=min(参数2,总数据量/参数1)

列裁剪和分区裁剪

Group by优化

    1map端合并:

     参数 hive.map.aggr是否在map段进行聚合默认为true,减少中间文件的数量

     参数 hive.groupby.mapaggr.checkinterval在map段进行聚合操作的条目数目默认是10w条

    2防止数据倾斜

    hive.groupby.skewindata

合并小文件

    1使用参数

    hive.merge.mapfiles 是否合并map阶段输出的文件

    hive.merge.reducerfiles 是否合并reducer阶段输出的文件

    hive.merge.size.per.task 设置合并文件的大小默认

利用multi-group by和multi-insert有效减少表扫描次数

使用union all特定

union all 阶段不进行group by操作
select * from(
select * from a
union all
select * from b)

group by a,b,c

开启并行执行

     开启 hive.exec.parallel=true

全排序


        

© 著作权归作者所有

共有 人打赏支持
厮以为
粉丝 30
博文 63
码字总数 84931
作品 0
深圳
架构师
私信 提问
hive 表的创建的操作与测试

Hive 中创建表的三种方式,应用场景说明及练习截图 内部表和外部表的区别,练习截图 分区表的功能、创建,如何向分区表中加载数据、如何检索分区表中的数据,练习截图 一:hive HQL 的表操作...

flyfish225
04/11
0
0
Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同...

HIVE
2016/07/02
38
0
【HBase】Hive1.2.1 和 Hbase1.0.1.1整合

Hive1.2.1 和 Hbase1.0.1.1整合 一、Hive和Hbase安装 二、原理 摘录于《Hbase企业应用开发实战》 Hive在0.6.0版本已经引入了Hive和Hbase的整合实现-hive-hbase-handler-0.6.0.jar.该实现是基...

HarryWu
2016/06/08
131
0
浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同...

大数据之路
2013/01/09
0
2
hadoop集群配置之hive1.2.0安装部署(远程mysql)

hadoop的版本是2.6.0 根据hive的源数据不同分为三种模式 1、内嵌模式,使用自带的derby 2、本地独立模式,本地mysql库 3、远程模式,远程mysql库 这里主要将第三种模式 #假设hadoop2.6.0已经...

尚浩宇
2015/05/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

程序中设置MySQL的默认值

import com.alibaba.fastjson.JSON;import java.beans.PropertyDescriptor;import java.lang.annotation.*;import java.lang.reflect.Field;import java.lang.reflect.Method;impo......

laolin23
9分钟前
0
0
WordPress没有上级目录的写权限

sudo chmod -R 777 wordpress/wp-content

临江仙卜算子
16分钟前
0
0
大数据学习之大数据技术笔记—spring入门

篇一 spring介绍 spring.io 官网 快速开始 Aop 面向切面编程,可以任何位置,并且可以细致到方法上 连接框架与框架 Spring 就是 IOC AOP 思想 有效的组织中间层对象一般都是切入 service 层 ...

董黎明
18分钟前
4
0
ASP.NET Core MVC 静态文件配置

在启动文件中添加以下配置 public class Startup{ public IServiceProvider ConfigureServices(IServiceCollection services) { services.AddDirectoryBrowser(); ......

whltian
46分钟前
1
0
linux之自定义命令

本人使用的是ubuntu系统,不喜欢建各种桌面快捷链接,但是每次启动个软件,去查找又麻烦,所以自定义了命令,来快捷的启动应用: 1、修改/etc/bash.bashrc,在文件末尾,加上如下List-1中的内...

克虏伯
53分钟前
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部