文档章节

关于hive优化的补充和重新描述

osenlin
 osenlin
发布于 2015/12/27 23:35
字数 281
阅读 41
收藏 2
点赞 0
评论 0

join优化

    1 小表在保证在map段join过滤大量数据

    2 自动开启map段join ,设置hive.mapjoin.smalltable.filesize大小,在这范围内为小表自动mapjoin

    3 自联结采用group by 替换join操作

Reducer数量 

    了解:hive.exec.reducers.bytes.per.reducer(默认是1GB)和hive.exec.reducer.max来决定reducer的数量

    reducer数量=min(参数2,总数据量/参数1)

列裁剪和分区裁剪

Group by优化

    1map端合并:

     参数 hive.map.aggr是否在map段进行聚合默认为true,减少中间文件的数量

     参数 hive.groupby.mapaggr.checkinterval在map段进行聚合操作的条目数目默认是10w条

    2防止数据倾斜

    hive.groupby.skewindata

合并小文件

    1使用参数

    hive.merge.mapfiles 是否合并map阶段输出的文件

    hive.merge.reducerfiles 是否合并reducer阶段输出的文件

    hive.merge.size.per.task 设置合并文件的大小默认

利用multi-group by和multi-insert有效减少表扫描次数

使用union all特定

union all 阶段不进行group by操作
select * from(
select * from a
union all
select * from b)

group by a,b,c

开启并行执行

     开启 hive.exec.parallel=true

全排序


        

© 著作权归作者所有

共有 人打赏支持
osenlin
粉丝 29
博文 57
码字总数 74224
作品 0
深圳
架构师
浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同...

xrzs ⋅ 2013/01/09 ⋅ 2

Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同...

HIVE ⋅ 2016/07/02 ⋅ 0

hive 表的创建的操作与测试

Hive 中创建表的三种方式,应用场景说明及练习截图 内部表和外部表的区别,练习截图 分区表的功能、创建,如何向分区表中加载数据、如何检索分区表中的数据,练习截图 一:hive HQL 的表操作...

flyfish225 ⋅ 04/11 ⋅ 0

一例 Hive join 优化实战

由于 hive 与传统关系型数据库面对的业务场景及底层技术架构都有着很大差异,因此,传统数据库领域的一些技能放到 Hive 中可能已不再适用。关于 hive 的优化与原理、应用的文章,前面也陆陆续...

xrzs ⋅ 2014/08/29 ⋅ 2

F周刊:2017-04-23

JWT (JSON Web Tokens) is a Bad Standard That Everyone Should Avoid Stop using JWT for sessions Stop using JWT for sessions, part 2: Why your solution doesn't work 这三个链接相当......

胡键 ⋅ 2017/04/23 ⋅ 0

瞎谈大数据

数据自古就有,并不稀奇,数据前面加了一个“大”之后,这些年被吵的火热,有的人说掌握数据就是掌控未来,到底如何掌控未来,大家都莫衷一是。火热的背后,作为一技术人员,我们应该仔细思考...

冷血狂魔 ⋅ 2016/08/16 ⋅ 0

【HBase】Hive1.2.1 和 Hbase1.0.1.1整合

Hive1.2.1 和 Hbase1.0.1.1整合 一、Hive和Hbase安装 二、原理 摘录于《Hbase企业应用开发实战》 Hive在0.6.0版本已经引入了Hive和Hbase的整合实现-hive-hbase-handler-0.6.0.jar.该实现是基...

HarryWu ⋅ 2016/06/08 ⋅ 0

关于Hive优化的四种方法总结

一、整体架构优化 现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。 整体架构优化点: 1、根据不同...

varchard ⋅ 2016/12/02 ⋅ 0

hadoop集群配置之hive1.2.0安装部署(远程mysql)

hadoop的版本是2.6.0 根据hive的源数据不同分为三种模式 1、内嵌模式,使用自带的derby 2、本地独立模式,本地mysql库 3、远程模式,远程mysql库 这里主要将第三种模式 #假设hadoop2.6.0已经...

尚浩宇 ⋅ 2015/05/22 ⋅ 0

数据仓库中的 SQL 性能优化(Hive篇)

一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分)...

xrzs ⋅ 2014/08/31 ⋅ 5

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Linux kernel脉络和主干总结

写在前面 前人常说,对Linux操作系统/内核的理解,是计算机行业从业者的内功,决定了你在技术领域想走多远。但内核的庞大以及学习曲线之陡峭,总让我在学习途中觉得犹如“管中窥豹”。 随着工...

Markz0928 ⋅ 27分钟前 ⋅ 0

在gcc中使用intel风格的内联汇编

很简单,内联汇编使用asm(“.intel_syntax noprefix/n”)声明一下,以后的内联汇编就可以用intel风格了,构建可执行文件时给gcc加上-masm=intel参数。 先写一个小程序测试一下: [cpp] view...

simpower ⋅ 37分钟前 ⋅ 0

NIO 之 ByteBuffer实现原理

相关文章 BIO、NIO、AIO 内部原理分析 NIO 之 Selector实现原理 NIO 之 Channel实现原理 前言 Java NIO 主要由下面3部分组成: Buffer Channel Selector 在传统IO中,流是基于字节的方式进行...

轨迹_ ⋅ 47分钟前 ⋅ 0

Jenkins docker权限问题

环境Ubuntu Server 工具 jenkins-war:2.89.2 报错信息 Cannot connect to the Docker daemon. Is the docker daemon running on this host?Build step 'Execute shell' marked build as fai......

Pulsar-V ⋅ 47分钟前 ⋅ 0

180621-一个简单的时间窗口设计与实现

如何设计一个计数的时间窗口 时间窗口,通常对于一些实时信息展示中用得比较多,比如维持一个五分钟的交易明细时间窗口,就需要记录当前时间,到五分钟之前的所有交易明细,而五分钟之前的数...

小灰灰Blog ⋅ 今天 ⋅ 0

Android之Dalvik、ART、JIT、AOT

Android之Dalvik、ART、JIT、AOT 本文内容:Dalvik、ART、JIT、AOT之间关系 本文定位:知识记录 学习过程记录,加深理解,提升文字组合表达能力。也希望能给学习的同学一些灵感 本文整理于[...

lichuangnk ⋅ 今天 ⋅ 0

Thrift RPC实战(五) thrift连接池

Thrift本身没有提供连接池,我们可以用Apache Commons Pool2来实现一个 一、定义对象工厂 BasePooledObjectFactory<T> extends BaseObject implements PooledObjectFactory<T> public class......

lemonLove ⋅ 今天 ⋅ 0

git 命令简写

简写 命令 g git gst git status gd git diff gdc git diff --cached gdv git diff -w "$@" | view - gl git pull gup git pull --rebase gp git push gc git commit -v gc! git commit -v ......

charley158 ⋅ 今天 ⋅ 0

Java中的锁使用与实现

1.Lock接口 锁是用来控制多个线程访问共享资源的方式,一般来说,一个锁能够防止多个线程同时访问共享资源。 在Lock出现之前,java程序是靠synchronized关键字实现锁功能的,而Java SE5之后,...

ZH-JSON ⋅ 今天 ⋅ 0

Intellij IDEA神器常用技巧四-类和方法注释模板设置

IDEA自带的注释模板不是太好用,我本人到网上搜集了很多资料系统的整理了一下制作了一份比较完整的模板来分享给大家,我不是专业玩博客的,写这篇文章只是为了让大家省事。 这里设置的注释模...

Mkeeper ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部