文档章节

Hadoop MapReduce 过程概述

fokYaland
 fokYaland
发布于 2015/06/04 17:27
字数 319
阅读 194
收藏 1
一个MapReduce任务就是一个Job。Job分为2个阶段: Map     Reduce
Map函数接收一个 <key,value>形式的输入,然后产生一个 <key,value>形式的中间输出,Hadoop会把相同中间Key值的value集合在一起传给reduce函数。
reduce 函数接收<key,(list of values)> 形式的输入,然后对values集合进行处理,输出 <key,value>形式。

一个MapReduce Job 包括:输入数据,MapReduce程序和配置信息( Configuration )。Hadoop将 Job 分成多个 tasks : map  tasks     reduce  tasks

Hadoop集群中有两类节点,一个jobtracker 和多个tasktrackers
Hadoop 对 【输入数据分片】,为每个分片创建一个map task。大多数情况下,分片大小与HDFS中块大小一致。 Map 任务在每个数据节点上运行。Map 将中间结果保存在本地文件系统中。

如果只有一个reduce task,map task 的输出经过排序处理,发送到运行 reduce task的节点。




如果有 多个reduce task,map task 会对输出进行 partition 一个分区 对应 一个reduce 任务。Map 的中间结果会分配到分区中,相同Key的输出在一个分区中。可以自定义分区函数,默认是哈希分区算法。



本文转载自:http://blog.csdn.net/yanliang1/article/details/17434627

fokYaland
粉丝 4
博文 68
码字总数 3062
作品 0
东城
私信 提问
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
2018/05/22
0
0
C#、JAVA操作Hadoop(HDFS、Map/Reduce)真实过程概述。组件、源码下载。无法解决:Response status code does not indicate success: 500。

一、Hadoop环境配置概述 三台虚拟机,操作系统为:Ubuntu 16.04。 Hadoop版本:2.7.2 NameNode:192.168.72.132 DataNode:192.168.72.135,192.168.72.136 注:具配置过程,不具备介绍了,网上...

唯笑志在
2016/11/25
0
0
Hadoop的mapreduce的简单用法

 Mapreduce初析   Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(outpu...

魔法王者安琪拉
2018/08/23
0
0
大数据Hadoop之 YARN认识

大数据Hadoop之 YARN认识2 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。...

飓风2000
2018/09/17
0
0
大数据教程(8.1)mapreduce核心思想

上一章介绍了hadoop的HDFS文件系统的原理及API使用。本章博主将继续对hadoop的mapreduce编程框架进行分享。 mapreduce原理篇 mapreduce是一个分布式运算程序的编程框架,是用户开发“基于had...

em_aaron
2018/11/19
0
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊spring cloud的ConsulServiceRegistry

序 本文主要研究一下spring cloud的ConsulServiceRegistry ServiceRegistry spring-cloud-commons-2.1.2.RELEASE-sources.jar!/org/springframework/cloud/client/serviceregistry/ServiceR......

go4it
9分钟前
0
0
Nextjs 学习 —— hooks

22

lemos
18分钟前
0
0
如何在spring mvc restful接口中定制化类型转换和格式化

1.痛点 最近小胖哥搞了个小程序,有几个spring mvc 接口传递了时间,时间用java 8 time 相关的api 来直接接收: 当使用根据ISO 8601格式化的参数向任何这些方法发送POST请求时,报出了如下异...

码农小胖哥
33分钟前
2
0
docker日志监控

日志处理机制 我们先来了解一下docker日志处理的机制,当启动一个容器的时候,它其实是docker daemon的一个子进程,docker daemon可以拿到你容器里面进程的标准输出,拿到标准输出后,它会通...

爱宝贝丶
33分钟前
2
0
域名已备案,但jsapi添加支付授权目录依然提示支付授权目录未通过ICP备案!!!

问题描述: 一网站域名xxx.cn已备案成功,在全国工业和信息化部(http://beian.miit.gov.cn/publish/query/indexFirst.action)查询到备案成功的,但是在微信商户平台配置jsapi添加支付授权目录...

闊苡訆涐囍醣
38分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部