文档章节

大数据基础之Hadoop基础系列:MapReduce的原理

 云逸清风
发布于 07/09 18:19
字数 203
阅读 0
收藏 0

原理

  1. 一个大任务分成多个小的子任务(Map),并行执行后,合并结果(Reduce).

基本概念

  1. Job & Task
  2. JobTracker
    1. 作业调度
    2. 分配任务,监控任务执行进度
  3. TaskTracker
    1. 执行任务
    2. 汇报任务状态

MapReduce的执行流程

MapReduce的容错机制

  1. 重复执行(默认情况下重复执行4次,如果还是失败就放弃)
  2. 推测执行(保证不会因为某个节点出错而影响计算性能.

© 著作权归作者所有

云逸清风

粉丝 0
博文 30
码字总数 8852
作品 0
海淀
技术主管
私信 提问
大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此...

柯西带你学编程
2018/05/22
0
0
Hadoop简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很...

晨曦之光
2012/03/09
224
0
什么是hadoop大数据?我又为什么要写这篇文章?

点击链接 https://my.oschina.net/ijj/blog 关注我的博客。学习更多hadoop知识。 这些天,有很多人咨询我大数据相关的一些信息,觉得大数据再未来会是一个朝阳行业,希望能尽早学会、入行,借...

隐姓埋名啊
2017/03/16
544
1
大数据技术学习,大数据处理为何选择Spark,而不是Hadoop

大数据处理为何选择Spark,而不是Hadoop。 一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多...

董黎明
2018/10/20
37
0
E-MapReduce成为全球首个 TPC-DS 认证的公共云产品

3月19日,阿里云智能 E-MapReduce 团队联合 ECS 和 OSS 团队在 TPC 官网( http://www.tpc.org/ )上提交了 TPC-DS Benchmark 报告,E-MapReduce以 106% 的成绩提升成为TPC 系列 Benchmark ...

EMR
05/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

实战项目-学成在线(七)

上传图片功能实现 在此之前,必须先了解FastDFS分布式文件系统,可以看之前的文章 文件服务系统实现对文件的上传、删除、查询等功能,各子系统不再开发上传文件等请求,各子系统通过文件系统...

lianbang_W
26分钟前
2
0
JVM -- Java堆结构及对象分代

Hello,今天记录下 Java虚拟机中的其中一个重点知识 --> Java堆。 一起学习,一起进步。继续沉淀,慢慢强大。希望这文章对您有帮助。若有写的不好的地方,欢迎评论给建议哈! 初写博客不久,...

猫狗熊
32分钟前
4
0
elastic-job的使用

概述: 公司用了elastic-job来执行定时任务和管理定时任务,所以最近研究了一下写了个demo,由于我是把zookeeper部署在了docker上的,所以这里简单介绍下docke的基础命令。 1、Docker基础命令...

你个小机灵鬼
33分钟前
4
0
Cadence Allegro 中skill应用教程:让代码替我们打工

SKILL语言是Candence提供给用户的一个开发接口,利用其本身提供的接口函数和SKILL语言完成自动化操作的功能。 怎么查看SKILL: 1.可以直接用写字板打开进行编辑或看功能说明。 2.想自己写或改...

demyar
34分钟前
4
0
如何看待技术债务

关于技术债务,做开发的同学对如下场景应该不陌生: 为了敢项目进度,详细设计、单元测试等过程就不写了,以后补 需求变化万千,原本架构设计无法满足新的需求,可是又不想动架构,于是绕过架...

嘿嘿嘿IT
36分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部