文档章节

四种常见的MapReduce设计模式

山哥
 山哥
发布于 2016/09/20 13:59
字数 830
阅读 23
收藏 0

MapReduce设计模式(MapReduce Design Pattern)

整个MapReduce作业的阶段主要可以分为以下四种:
  1、Input-Map-Reduce-Output

  2、Input-Map-Output

  3、Input-Multiple Maps-Reduce-Output

  4、Input-Map-Combiner-Reduce-Output
下面我将一一介绍哪种场景使用哪种设计模式。

Input-Map-Reduce-Output

Input➜Map➜Reduce➜Output

如果我们需要做一些聚合操作(aggregation),我们就需要使用这种模式。

场景 计算各性别员工薪水平均值
Map(Key, Value) Key: Gender
Value: Their Salary
Reduce 对Gender进行Group by,并计算每种性别的总薪水

Input-Map-Output

Input➜Map➜Output

如果我们仅仅想改变输入数据的格式,这时候我们可以使用这种模式。

场景 对性别进行处理
Map(Key, Value) Key : Employee Id
Value : Gender ->
if Gender is Female/ F/ f/ 0 then converted to F
else if Gender is Male/M/m/1 then convert to M

Input-Multiple Maps-Reduce-Output

Input1➜Map1➘
               Reduce➜Output
Input2➜Map2➚

在这种设计模式中,我们有两个输入文件,其文件的格式都不一样,
文件一的格式是性别作为名字的前缀,比如:Ms. Shital Katkar或Mr. Krishna Katkar
文件二的格式是性别的格式是固定的,但是其位置不固定,比如 Female/Male, 0/1, F/M

场景 对性别进行处理
Map(Key, Value) Map 1 (For input 1):我们需要将性别从名字中分割出来,然后根据前缀来确定性别,然后得到 (Gender,Salary)键值对;
Map 2 (For input 2):这种情况程序编写比较直接,处理固定格式的性别,然后得到(Gender,Salary)键值对。
Reduce 对Gender进行Group by,并计算每种性别的总薪水

Input-Map-Combiner-Reduce-Output

Input➜Map➜Combiner➜Reduce➜Output

  在MapReduce中,Combiner也被成为Reduce,其接收Map端的输出作为其输入,并且将输出的 key-value 键值对作为Reduce的输入。Combiner的使用目的是为了减少数据传入到Reduce的负载。

  在MapReduce程序中,20%的工作是在Map阶段执行的,这个阶段也被成为数据的准备阶段,各阶段的工作是并行进行的。

  80%的工作是在Reduce阶段执行的,这个阶段被成为计算阶段,其不是并行的。因此,次阶段一般要比Map阶段要满。为了节约时间,一些在Reduce阶段处理的工作可以在combiner阶段完成。

  假设我们有5个部门(departments),我们需要计算个性别的总薪水。但是计算薪水的规则有点奇怪,比如某个性别的总薪水大于200k,那么这个性别的总薪水需要加上20k;如果某个性别的总薪水大于100k,那么这个性别的总薪水需要加上10k。如下:

Map阶段:

Dept 1: Male<10,20,25,45,15,45,25,20>,Female <10,30,20,25,35>

Dept 2: Male<15,30,40,25,45>,Female <20,35,25,35,40>

Dept 3: Male<10,20,20,40>,Female <10,30,25,70>

Dept 4: Male<45,25,20>,Female <30,20,25,35>

Dept 5: Male<10,20>,Female <10,30,20,25,35>

 

Combiner阶段:

Dept 1:Male <250,20>,Female <120,10>

Dept 2:Male <155,10>,Female <175,10>

Dept 3:Male <90,00>,Female <135,10>

Dept 4:Male <90,00>,Female <110,10>

Dept 5:Male <30,00>,Female <130,10>

 

Reduce阶段:

Male< 250,20,155,10,90,90,30>,Female<120,10,175,10,135,10,110,10,130,10>

 

Output:

Male<645>,Female<720>

以上四种MapReduce模式只是最基本的,我们可以根据自己问题设计不一样的设计模式。
本文翻译自:https://dzone.com/articles/mapreduce-design-patterns

本文转载自:https://www.iteblog.com/archives/1797

山哥

山哥

粉丝 248
博文 355
码字总数 136865
作品 0
南京
程序员
私信 提问
有奖试读&征文——我们在互联网上奋斗的故事

互联网是一个年轻的行业,同时也是一个推陈出新、不断进化的行业。 中国互联网行业在最近的十五年里,以怎样的方式在“进化”。我相信很多奋斗在互联网战线上的你们最深有感触。读一读《进化...

生气的散人
2014/10/14
88
0
8月,推荐给程序员们的书

八月,好书来袭,在Swift刚刚发布不久之后,即将出版《Swift权威指南》一书,预计8月下旬上市,敬请关注,据说是国内第一本含金量超过Swift官方文档的原创图书,到时等你们来评分。 本期特别...

生气的散人
2014/08/07
3.4K
0
设计模式梳理(一)

设计模式梳理(一) 总体来说设计模式分为三大类: @案例源码地址:https://gitlab.com/lxqxsyu/DisgnPattern 创建型模式 简单工厂模式 工厂类是整个模式的关键。它包含必要的判断逻辑,能够...

lxq_xsyu
2017/11/02
0
0
浅谈桥(Bridge)设计模式

设计模式是一种思想,是一种表达方法,充分理解设计模式,能很好的举出各种设计模式的隐喻,然后在日常的代码工作中,将设计模式的思想实现到我们的代码中,好的设计模式能使我们的代码有更好...

欧阳俊文
2012/11/09
370
0
JavaScript设计模式总结

之前看过《JavaScript设计模式与开发实践》这本书,对书中的设计模式和一些相关案例也有了一定的了解,同时把这些设计模式的应用对应在在一些其他的项目中,进行了一些整理,如下仅供参考: ...

jefferyE
03/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Replugin借助“UI进程”来快速释放Dex

public static boolean preload(PluginInfo pi) { if (pi == null) { return false; } // 借助“UI进程”来快速释放Dex(见PluginFastInstallProviderProxy的说明) return PluginFastInsta......

Gemini-Lin
今天
4
0
Hibernate 5 的模块/包(modules/artifacts)

Hibernate 的功能被拆分成一系列的模块/包(modules/artifacts),其目的是为了对依赖进行独立(模块化)。 模块名称 说明 hibernate-core 这个是 Hibernate 的主要(main (core))模块。定义...

honeymoose
今天
4
0
CSS--属性

一、溢出 当内容多,元素区域小的时候,就会产生溢出效果,默认是纵向溢出 横向溢出:在内容和容器之间再套一层容器,并且内部容器要比外部容器宽 属性:overflow/overflow-x/overflow-y 取值...

wytao1995
今天
4
0
精华帖

第一章 jQuery简介 jQuery是一个JavaScript库 jQuery具备简洁的语法和跨平台的兼容性 简化了JavaScript的操作。 在页面中引入jQuery jQuery是一个JavaScript脚本库,不需要特别的安装,只需要...

流川偑
今天
7
0
语音对话英语翻译在线翻译成中文哪个方法好用

想要进行将中文翻译成英文,或者将英文翻译成中文的操作,其实有一个非常简单的工具就能够帮助完成将语音进行翻译转换的软件。 在应用市场或者百度手机助手等各大应用渠道里面就能够找到一款...

401恶户
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部