文档章节

mapreduce 性能优化,通过inputSplit分片size控制map数目

小叮当_加V
 小叮当_加V
发布于 2016/12/03 20:47
字数 265
阅读 47
收藏 0

推荐参考资料:

https://my.oschina.net/u/1451042/blog/352810

http://www.cnblogs.com/ihongyan/p/4855256.html

map task 个数严重影响mr的性能。网上很多资料,讲解了原理和方法,我这里不再敖述。我总结了两种修改方法,希望对大家有帮助。

方法1:修改 hdfs 的blocksize,这种方法很不可取,需要重新启动集群。关键是以前的数据依然保持者以前blocksize的大小,新数据才会是新的blocksize的大小。比如以前是128M,修改为512M。以前的数据没变化,blocksize依然是128M。

方法二:推荐方法。代码中设置,最灵活,根据不同需求,设置不一样的值。设置 mapred.min.split.size 的大小代码中添加FileInputFormat.setMinInputSplitSize,单位是字节,如我的代码:

            job.setMapOutputValueClass(IntWritable.class);
            job.setNumReduceTasks(1);
            //设置最小分片为512M
            FileInputFormat.setMinInputSplitSize(job, 1024*1024*512);

            FileInputFormat.addInputPath(job, new Path("/usr/keyword/input"));

 

补充说明:

TextInputFormat.setMinInputSplitSize(job,1024L);//设置最小分片大小
TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L);//设置最大分片大小

© 著作权归作者所有

上一篇: solr Query[转]
下一篇: Java正则表达式
小叮当_加V
粉丝 6
博文 98
码字总数 19908
作品 0
东城
私信 提问
通过inputSplit分片size控制map数目

前言:在具体执行Hadoop程序的时候,我们要根据不同的情况来设置Map的个数。除了设置固定的每个节点上可运行的最大map个数外,我们还需要控制真正执行Map操作的任务个数。 1.如何控制实际运行...

仙剑奇侠
2014/12/05
3K
0
MapReduce Application中mapper的数目和分片的数目

问题 MapReduce Application中mapper的数目和分片的数目是一样的 默认情况下,分片和输入文件的分块数是相等的。也不完全相等,如果block size大小事128M,文件大小为128.1M,文件的block数目...

残风vs逝梦
2014/07/09
906
0
Hadoop输入和输出的处理类(7)

hadoop输入的处理类 InputFormat InputFormat负责处理MR的输入部分。 作用: 1、验证作业的输入是否规范。 2、把输入文件切分成InputSplit。 3、提供RecordReader的实现类,把InputSplit读到...

肖鋭
2014/03/01
218
0
Hadoop 版本 生态圈 MapReduce模型

一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : -- 主干分支 : 新功能都是在 主干分支(trunk)上开发; -- 特性独有分支 : 很多新特性稳定性很...

日拱一卒
2014/05/17
73
0
【Hadoop】- MapReduce 框架详细介绍

MapReduce 简介 说明: 通过由普通机器组成的集群对大量数据集进行并行处理可依靠的容错软件框架。 MapReduce作业可以将数据集分割为Map任务并行处理的数据块,框架对对Map过程产生的数据进行...

ZeroneLove
02/24
26
0

没有更多内容

加载失败,请刷新页面

加载更多

java通过ServerSocket与Socket实现通信

首先说一下ServerSocket与Socket. 1.ServerSocket ServerSocket是用来监听客户端Socket连接的类,如果没有连接会一直处于等待状态. ServetSocket有三个构造方法: (1) ServerSocket(int port);...

Blueeeeeee
今天
6
0
用 Sphinx 搭建博客时,如何自定义插件?

之前有不少同学看过我的个人博客(http://python-online.cn),也根据我写的教程完成了自己个人站点的搭建。 点此:使用 Python 30分钟 教你快速搭建一个博客 为防有的同学不清楚 Sphinx ,这...

王炳明
昨天
5
0
黑客之道-40本书籍助你快速入门黑客技术免费下载

场景 黑客是一个中文词语,皆源自英文hacker,随着灰鸽子的出现,灰鸽子成为了很多假借黑客名义控制他人电脑的黑客技术,于是出现了“骇客”与"黑客"分家。2012年电影频道节目中心出品的电影...

badaoliumang
昨天
15
0
很遗憾,没有一篇文章能讲清楚线程的生命周期!

(手机横屏看源码更方便) 注:java源码分析部分如无特殊说明均基于 java8 版本。 简介 大家都知道线程是有生命周期,但是彤哥可以认真负责地告诉你网上几乎没有一篇文章讲得是完全正确的。 ...

彤哥读源码
昨天
15
0
jquery--DOM操作基础

本文转载于:专业的前端网站➭jquery--DOM操作基础 元素的访问 元素属性操作 获取:attr(name);$("#my").attr("src"); 设置:attr(name,value);$("#myImg").attr("src","images/1.jpg"); ......

前端老手
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部