文档章节

关于hive优化的补充和重新描述

osenlin
 osenlin
发布于 2015/12/27 23:35
字数 281
阅读 44
收藏 2

join优化

    1 小表在保证在map段join过滤大量数据

    2 自动开启map段join ,设置hive.mapjoin.smalltable.filesize大小,在这范围内为小表自动mapjoin

    3 自联结采用group by 替换join操作

Reducer数量 

    了解:hive.exec.reducers.bytes.per.reducer(默认是1GB)和hive.exec.reducer.max来决定reducer的数量

    reducer数量=min(参数2,总数据量/参数1)

列裁剪和分区裁剪

Group by优化

    1map端合并:

     参数 hive.map.aggr是否在map段进行聚合默认为true,减少中间文件的数量

     参数 hive.groupby.mapaggr.checkinterval在map段进行聚合操作的条目数目默认是10w条

    2防止数据倾斜

    hive.groupby.skewindata

合并小文件

    1使用参数

    hive.merge.mapfiles 是否合并map阶段输出的文件

    hive.merge.reducerfiles 是否合并reducer阶段输出的文件

    hive.merge.size.per.task 设置合并文件的大小默认

利用multi-group by和multi-insert有效减少表扫描次数

使用union all特定

union all 阶段不进行group by操作
select * from(
select * from a
union all
select * from b)

group by a,b,c

开启并行执行

     开启 hive.exec.parallel=true

全排序


        

© 著作权归作者所有

共有 人打赏支持
osenlin
粉丝 31
博文 62
码字总数 82160
作品 0
深圳
架构师
hive 表的创建的操作与测试

Hive 中创建表的三种方式,应用场景说明及练习截图 内部表和外部表的区别,练习截图 分区表的功能、创建,如何向分区表中加载数据、如何检索分区表中的数据,练习截图 一:hive HQL 的表操作...

flyfish225
04/11
0
0
Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同...

HIVE
2016/07/02
38
0
浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同...

大数据之路
2013/01/09
0
2
【HBase】Hive1.2.1 和 Hbase1.0.1.1整合

Hive1.2.1 和 Hbase1.0.1.1整合 一、Hive和Hbase安装 二、原理 摘录于《Hbase企业应用开发实战》 Hive在0.6.0版本已经引入了Hive和Hbase的整合实现-hive-hbase-handler-0.6.0.jar.该实现是基...

HarryWu
2016/06/08
131
0
F周刊:2017-04-23

JWT (JSON Web Tokens) is a Bad Standard That Everyone Should Avoid Stop using JWT for sessions Stop using JWT for sessions, part 2: Why your solution doesn't work 这三个链接相当......

胡键
2017/04/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Hbase 概述及特点

1、Hbase概述 HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。 尽管已经有许多数据存储和访问的策略和实现方法,但事实上...

PeakFang-BOK
19分钟前
0
0
TortoiseGit(乌龟git)保存用户名密码的方法

windows下比较比较好用的git客户端有2种: 1. msysgit + TortoiseGit(乌龟git) 2. GitHub for Windows github的windows版也用过一段时间,但还是不太习惯。所以目前仍然青睐与msysgit+乌龟g...

simpower
38分钟前
0
0
Java并发编程:volatile关键字解析

volatile这个关键字可能很多朋友都听说过,或许也都用过。在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果。在Java 5之后,volatile关键字才得以重获生...

engeue
55分钟前
2
0
通过ajax访问远程天气预报服务

http://www.webxml.com.cn/zh_cn/index.aspx 更改wsdl文件 打开文件将15行,51行,101行去掉 然后把文件复制到c盘 然后在桌面上面就生成了文件 将文件打成jar包 package cn.it.ws.weather;...

江戸川
今天
1
0
聊聊storm的tickTuple

序 本文主要研究一下storm的tickTuple 实例 TickWordCountBolt public class TickWordCountBolt extends BaseBasicBolt { private static final Logger LOGGER = LoggerFactory.getLogg......

go4it
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部