文档章节

Hadoop中的MapReduce(5)

肖鋭
 肖鋭
发布于 2014/02/23 15:46
字数 613
阅读 108
收藏 1

        在MapReduce中,它也是主从结构,主节点:JobTracker,从节点:TaskTracker。主节点只有一个从节点有很多个,主节点在主机上,从节点分布到其他机器上。

        JobTracker

                    作用:

                            1、负责接收用户提交的作业;

                            2、负责把计算任务分给TaskTracker执行;

                            3、监控TaskTracker的执行情况;

        TaskTracker:

                    作用:

                            1、执行JobTracker分配的计算任务;

            JobClient

                    概念:是用户作业与JobTracker交互的主要接口。

                     作用:

                            1、负责提交作业,负责启动;

                            2、跟踪任务执行;

                            3、访问任务状态和日志等;

Hadoop中基于RPC的通信协议

                    1、JobSubmissionProtocol:是JobClient与JobTracker通信的接口。

                                执行过程:TaskTracker每隔一段时间向JobTracker发送hearbeat(心跳机制)提交当前TaskTracker所在机

                                器的内存,CPU,磁盘等状态信息,是否可以接收新任务等信息;JobTracker接收到hearbeat

                                给TaskTracker返回需要所做的job或task操作,是否开启新的任务。TaskTracker可以从取

                                得JobTracker取得当前文件系统路径,需要执行Job的Jar文件路径等.

                           2、InterTrackerProtocol:是TaskTracker与JobTracker通信的接口。

                                作用:主要用来提交,执行Job和取得当前Job状态;JobClient可以通过此协议提交Job(submitJob),

                                          取得当前Job的参数,状态,Counter,Task状态,文件系统路径,jar文件路径,所有Job的状

                                          态,还有Job队列的信息,此外JobClient还可以提交KillJob和设定Job优先级等任务到                                                          JobTracker。

MapReduce中驱动默认设置

                

InputFormat

TextInputFormat

MapperClass

IdentityMapper

MapOutputKeyClass

LongWritable

MapOutputValueClass

Text

PartitionerClass

HashPartitioner

ReduceClass

IdentityReduce

OutputKeyClass

LongWritable

OutputValueClass

Text

OutputFormatClass

TextOutputFormat


MapReduce中常见的算法

                                1、单词计数

                                2、数据去重

                                3、排序

                                4、Top k

                                5、选择

                                6、投影

                                7、分组

                                8、多表连接

                                9、单表关联

MapReduce原理

                        


MapReduce为什么能实现失败检测?

                    正是由于采用了无共享框架,所有MapReduce才能够实现失败检测,这也意味着各个任务之间彼此独立。

MapReduce作业

                    MapReduce作业(Job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息等。

                    注意:在MapReduce中不能处理文件名以_(下划线)开头的文件.



                                                                                                                 Name:Xr

                                                                                                                 Date:2014-02-23 15:45


© 著作权归作者所有

肖鋭
粉丝 10
博文 62
码字总数 29531
作品 0
朝阳
程序员
私信 提问
MapReduce和Spark的区别

性能: Spark是在内存中处理数据的,而MapReduce是通过map和reduce操作在磁盘中处理数据,所以正常情况下Spark的处理速度会比mapreduce快。但是当数据量大,不能一次性加载到内存的时候,Spa...

无精疯
04/15
101
0
2014-11-12--Hadoop的基础学习(三)--Hadoop中MapReduce框架入门

1.MapReduce的简单概念 百度百科:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和他们的主要思想,都是从函数式编程语言里借来的...

查封炉台
2014/11/16
8.3K
8
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
2018/05/22
0
0
大数据之---Yarn伪分布式部署和MapReduce案例

1、软件环境 本次涉及伪分布式部署只是要主机hadoop01,软件安装参考伪分布式部署终极篇 2、配置yarn和mapreduce 3、提交测试jar计算圆周率 job15248048138350001 job命名格式: jobunix时间...

ycwyong
2018/05/17
0
0
Hadoop、MapReduce、YARN和Spark的区别与联系

(1) Hadoop 1.0 第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应...

cuiyaonan2000
2018/05/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

c++运算符重载

这个运算符重载觉得有点像java的装箱 #ifndef INTERGER_H #define INTERGER_H //学习下运算符的重载 class Interger { public: Interger(); Interger(int value):m_value(value){}......

南桥北木
28分钟前
4
0
微信公众号如何推送文章

公众号推送消息格式,可以推送文本、图文消息、小程序、优惠券、会员卡、图片、视频、语音,不仅仅只能推送文章即图文消息,支持素材永久链接,表情符号等。 通过公众号接口可以开发各种各样...

保持美好
28分钟前
4
0
云桌面经常被吐槽,为什么还有很多人在用

说起云桌面我们会发现一个很奇怪的现象,那就是我们在网上经常能看到有人在吐槽云桌面的,说云桌面的性能差、价格贵和各种的不好用。虽然说网上有很多人都在吐槽云桌面,但是我们会发现使用它...

GZASD
35分钟前
5
0
支付宝20积分兑换15天会员

支付宝20积分兑换30天会员 活动地址:https://openact.ximalaya.com/alipay-vip/#/(或支付宝扫码打开)

xiaogg
38分钟前
6
0
DDoS攻击是怎么打垮游戏企业的?

1.占用服务器的有限资源。比如TCP连接数资源(服务器的连接数是有限制的),有的TCP连接会断开,有的会保持通信;比如一家餐馆,攻击者打比方是地痞流氓总是去排队,但是并不去消费,那么此时正...

云漫网络Ruan
40分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部