文档章节

Hadoop中的Combiner(聚合)(10)

肖鋭
 肖鋭
发布于 2014/03/02 21:40
字数 661
阅读 229
收藏 0

        使用Combiner好处

                           减少Mapper任务输出数据量,减少网络传输时间,减少整体Job运行时间。

        Combiner仅作用于单个Mapper任务,每个Map任务可能会产生大量的输出,Combiner的作用就是在Map端对输出先做一次合并,以减少传输到Reducer的数据量。

        Combiner最基本是实现本地Key的递归,Combiner具有类似本地的Reduce功能。如果不用Combiner,那么所有的结果都是Reduce完成,效率会相对低下,使用Combiner先完成的Map会在本地聚合,提升速度。

        注意:Combiner的输出时Reduce的输入,Combiner决不能改变最终的计算结果,所以从我的想法来看,Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完成一致,且不影响最终结果的场景。比如累加,最大值等。

        为什么使用Combiner

                          集群上的可用宽带限制了MapReduce作业的数量,因此最重要的一点是尽量避免Map任务和Reduce任务之间的数据传输。

                          Hadoop允许用户针对Map任务的输出指定一个合并函数(Combiner)——————合并函数的输出作为Reduce函数的输入。

                            由于合并函数是一个优化方案,所以Hadoop无法确定针对Map任务输出中任一条记录需要调用多少次合并函数。换而言之,不管调用合并函数多少次,Reduce的输出结构都是一致的。

例子:
package combiner;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import mapreduce.MyMapper;
import mapreduce.MyReducer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

/**
 * 计算单词
 * @author Xr
 *
 */
public class WordCountApp {
    private static final String INPUT_PATH = "hdfs://hadoop:9000/hello";
    private static final String OUTPUT_PATH = "hdfs://hadoop:9000/hello1";
    public static void main(String[] args)throws Exception {
        Configuration conf = new Configuration();
        //判处是否存在输入目录
        existsFile(conf);
        Job job = new Job(conf,WordCountApp.class.getName());
        
        //1.1    从哪里读取数据
        FileInputFormat.setInputPaths(job, INPUT_PATH);
        //把输入文本中的每一行解析成一个个键值对
        job.setInputFormatClass(TextInputFormat.class);
        
        //1.2    设置自定义map函数
        job.setMapperClass(MyMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        
        //1.3    分区
        job.setPartitionerClass(HashPartitioner.class);
        job.setNumReduceTasks(1);
        
        //1.4    TODO    排序分组
        //1.5    规约
        job.setCombinerClass(MyReducer.class);
        
        //2.1    是框架做的,不需要程序员手工干预。
        //2.2    自定义reducer函数
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        
        //2.3    写入到HDFS中
        FileOutputFormat.setOutputPath(job, new Path(OUTPUT_PATH));
        //格式化类
        job.setOutputFormatClass(TextOutputFormat.class);
        
        //提交给JobTracker去执行
        job.waitForCompletion(true);
    }
    private static void existsFile(Configuration conf) throws IOException,
            URISyntaxException {
        FileSystem fs = FileSystem.get(new URI(INPUT_PATH), conf);
        if(fs.exists(new Path(OUTPUT_PATH))){
            fs.delete(new Path(OUTPUT_PATH), true);
        }
    }
}


                                                                                                                                Name:Xr

                                                                                                                                Date:2014-03-02 21:41

© 著作权归作者所有

肖鋭
粉丝 10
博文 62
码字总数 29531
作品 0
朝阳
程序员
私信 提问
用 MapReduce 进行数据密集型文本处理 - 本地聚合之二

本文是 《 Data Intensive Processing with MapReduce 》中的算法实现系列文章的最新一篇。该系列文章的第一篇 在此 。在第一篇里,我们讨论了使用本地聚合技术来减少shuffle阶段的网络传输数...

可观
2013/01/29
1K
0
用MapReduce进行数据密集型文本处理-本地聚合

本文译自Working Through Data-Intensive Text Processing with MapReduce 因为最近忙于 Coursera提供 的一些课程,我已经有一段时间没有写博客了。这些课程非常有意思,值得一看。我买了一本...

DamianZhou
2013/05/06
449
0
用MapReduce进行数据密集型文本处理-本地聚合(下)

本文另一地址请见用MapReduce进行数据密集型文本处理-本地聚合(下) 本文译自 Working Through Data-Intensive Text Processing with MapReduce – Local Aggregation Part II 本文是《Dat...

可观
2013/01/29
459
0
使用 MapReduce 进行数据密集型文本处理

距离我上次发文,已经有一段时间了。因为我最近忙着 Coursera提供 的一些课程。这些课程里面有些很有趣的东西并值得去研究。前段时间,我买了一本由Jimmy和Chris Dyer编写的书Data-Intensiv...

可观
2013/01/26
815
2
Hadoop Streaming自带参数解析

排序、hash分组、压缩格式、内存设定 -Option: -input:输入文件路径 -output:输出文件路径 -mapper:用户自己写的mapper程序,可以是可执行文件或者脚本 -reducer:用户自己写的reducer程...

analanxingde
2018/07/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

为什么 K8s 在阿里能成功?| 问底中国 IT 技术演进

作者: 曾凡松 阿里云云原生应用平台高级技术专家 张振 阿里云云原生应用平台高级技术专家 导读:本文描述了阿里巴巴在容器管理领域的技术演进历程,解读了为什么 K8s 最终能够大获成功的原因...

阿里巴巴云原生
15分钟前
159
0
TMS320DM8168浮点DSP C674x + ARM Cortex-A8开发板Micro SD接口、拓展IO信号

TL8168-EVM是广州创龙基于SOM-TL8168核心板研发的一款TI ARM Cortex-A8 + DSP C674x双核开发板,采用核心板+底板方式,尺寸为240mm*184mm,核心板采用工业级B2B连接器,稳定、可靠、便捷,可...

Tronlong创龙
17分钟前
49
0
区块链 BTD 玩法

前言:想挣快钱,当然只能走别人没有走过或很少人走的路。 什么路是别人没有走过的路,或者说很少人走的路,目前来说,区块链算一个,因为这个技术,还在前期发展阶段,而且zhengfu资金支持。...

geekgo
28分钟前
119
0
如何让百度搜索引擎爬取、收录被部署在 Github pages 上的 Hexo 博客链接

1. 场景描述 当我们提交 sitemap.xml 文件给百度时,提示抓取失败,并且错误信息如下: 连接超时DNS解析ip地址:185.***.***.153抓取机房:联通UA:Mozilla/5.0 (compatible; Baiduspider...

whoru
34分钟前
31
0
NASA的10条编码规则

关于NASA的10条编程规则,他们曾表示:这些规则的作用就像汽车上的安全带:最初,它们可能有点不舒服,但过了一会儿,它们的使用就变成了第二天性,而没有使用它们就变得不可想象。 Gerard J...

京东云技术新知
46分钟前
102
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部