文档章节

Hadoop中的作业(Job)(6)

肖鋭
 肖鋭
发布于 2014/02/25 21:42
字数 484
阅读 91
收藏 0

MapReduce作业

                            MapReduce作业(Job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息。

Hadoop作业

                            Hadoop是将作业分成若干个小任务(Task)来执行,其中包括两类任务:Map任务和Reduce任务。有两类节点控制着作业执行过程:一个JobTracket及一系列TaskTracker。JobTracker通过调度TaskTracker上运行的任务,来协调所有运行在系统上的作业。TaskTracker在运行任务的同时将运行进度报告发送给JobTracker,JobTracker由此记录每项作业任务的整体进度情况,如果其中一个任务失败,JobTracker可以在另外一个TaskTracker节点上重新调度该任务。


Map任务将其输出写入到本地硬盘,而非HDFS,这是为什么?

                    因为Map的输出是中间结果,该中间结果由reduce任务处理后才产生最终输出结构,而且一旦作业完成,Map的输出结果可以被删除,因此,如果把它存储在HDFS中并实现备份,难免小题大做。如果该节点上运行的Map任务将Map中间结果传送到reduce任务之前失败,Hadoop将在另一个节点上重新运行这个map任务以再次构建Map中间结果。

                    如果有多个Reduce任务,则每个Map任务都会对其输出进行分区(Partition),即为每个Reduce任务建一个分区,每个分区有许多键(及其对应值),但每个键对应的键/值对记录都在同一分区中。分区由用户定义的分区函数控制,但通常默认的分区器(Partitioner)通过哈希函数来分区的,这种方法很高效。



                                                                                                                            Name:Xr

                                                                                                                            Date:2014-02-25 21:41

© 著作权归作者所有

上一篇: 生活感悟(2)
肖鋭
粉丝 10
博文 62
码字总数 29531
作品 0
朝阳
程序员
私信 提问
加载中

评论(2)

肖鋭
肖鋭 博主

引用来自“Rekklesly”的评论

你好,想请教几个问题。。。
mapredcue可以定义两种分区策略,然后根据不同的KEY值分布 用不同的分区策略么。。
对的
Rekklesly
Rekklesly
你好,想请教几个问题。。。
mapredcue可以定义两种分区策略,然后根据不同的KEY值分布 用不同的分区策略么。。
一脸懵逼学习MapReduce的原理和编程(Map局部处理,Reduce汇总)和MapReduce几种运行方式

1:MapReduce的概述:   (1):MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.   (2):MapReduce由两个阶段组成:Map和Reduce,用户只需要...

别叫小伙
2017/09/18
0
0
mapreduce调试查询System.out的结果

1.前言 刚接触mapreduce的人肯定为碰到这样的问题,就是我们在程序中如下类似的命令 [cpp] view plaincopyprint? System.out.println(year+" "+airTemperature);//无效,控制台没有输出。 但...

嗯哼9925
2017/12/28
0
0
Hadoop工作原理图-WordCount示例

一个Mapper对应一个碎片段。 import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.M......

u013063153
2017/05/31
0
0
hadoop 安装错误收集

[root@hadoop2 ~]# hadoop namenode -format DEPRECATED: Use of this script to execute hdfs command is deprecated. Instead use the hdfs command for it. Error: Could not find or loa......

盖世英雄到来
2015/11/30
307
0
Hadoop日志小结

一、日志分类 1、进程日志 进程日志即为hadoop各个守护进程的日志,例如ResourceManager、NodeManager、NameNode、DataNode等守护进程。集群启动或者运行期间出现异常,首先应该查看进程日志...

alexanda2000
2017/01/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

编程作业20190210900169

1编写一个程序,提示用户输入名和姓,然后以“名,姓”的格式打印出来。 #include <stdio.h>#include <stdlib.h> int main(){ char firstName[20]; char lastName[20]; print......

1李嘉焘1
17分钟前
2
0
补码的优点及原理分析

只讨论整数 1.计算机内部为什么没有减法器? 减法运算本身其实就是加法,如x - y即x +(-y),所以只需要将负数成功表示出来并可以参加加法运算,那加法器就可同时实现“+”和“-”的运算。这...

清自以敬
32分钟前
59
0
Docker 可视化管理 portainer

官网安装指南: https://portainer.readthedocs.io/en/latest/deployment.html docker-compose.yml 位置,下载地址:https://downloads.portainer.io/docker-compose.yml...

Moks角木
59分钟前
5
0
Spring Security 实战干货:必须掌握的一些内置 Filter

1. 前言 上一文我们使用 Spring Security 实现了各种登录聚合的场面。其中我们是通过在 UsernamePasswordAuthenticationFilter 之前一个自定义的过滤器实现的。我怎么知道自定义过滤器要加在...

码农小胖哥
今天
8
0
常见分布式事务解决方案

1 微服务的发展 微服务倡导将复杂的单体应用拆分为若干个功能简单、松耦合的服务,这样可以降低开发难度、增强扩展性、便于敏捷开发。当前被越来越多的开发者推崇,很多互联网行业巨头、开源...

asdf08442a
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部