文档章节

hadoop调度器及压缩

迪allen
 迪allen
发布于 2014/03/27 00:48
字数 857
阅读 235
收藏 1

作业的调度

     调度器:

         FIFO(first in first out)(早期版本使用)

             按照作业提交的顺序,使用FIFO(先进先出)调度算法来运算作业.

             典型情况下,每个作业都会使用整个集群,因此作业必须等待,知道轮到自己运行.

             随后,假如设置作业优先级的功能,可以通过设置mapred.job.priority属性或者

             JobClient的setJobPriority()方法来设置优先级.(very_high,high,normal,low,very_low)

             然而,在FIFO算法中,优先级并不支持抢占,所以高优先级的作业仍然会被那些低优先级的作业所阻塞.

            

             在hadoopk中,MapReduce的调度器可以选择,默认的调度器是原始的基于队列的FIFO调度器,

             还得有两个多用户调度器(Fair[公平] Scheduler和Capacity[能力,地位资格] Scheduler)

    

     Fair Scheduler

         公平调度器的目标是让每个用户公平的共享集群能力.这种方式根据作业的大小,在合理的时间内完成.

         作业都被放在作业池中,默认情况,每个用户都有自己的作业池.可以用map和reduce的任务槽来制定

         作业池的最小容量,也可以设置每个池的权重. fair支持抢占,所以,如果一个池在特定的一段时间内

         未得到公平的资源共享,它会终止运行池中得到过多资源的任务,以便把任务槽让给运行资源不足的池.

             公平调度器:

                 公平调度是一种赋予作业(job)资源的方法,它的目的是让所有的作业随着时间的推移,

                 都能平均的获取等同的共享资源.

                     1.公平调度器按资源池 (pool) 来组织作业, 并把资源公平的分到这些资源池里。

                     2.公平调度器允许赋给资源池保证 (guaranteed) 最小共享资源.

                     3.公平调度器还可以限制每用户和每资源池的并发运行作业数量。

             安装:

                 fair Scheduler是一个后续模块,要使用它,需要将其jar文件放在hadoop的类路径.

                     方法一:把fairscheduler.jar拷贝到hadoop_home/lib中

                     方法二:修改hadoop-env.sh中的hadoop-classpath,加入公平调度器的jar包

                     最后需要在mapred-site.xml设置下列属性,让hadoop使用公平调度器.

                         <property> 

                             <name>mapred.jobtracker.taskScheduler</name> 

                             <value>org.apache.hadoop.mapred.FairScheduler</value> 

                         </property> 

             验证:重启集群后,可以通过JobTracker的web用户界面中的 http://<jobtrackerURL>/scheduler

                     检查公平调度器是否正在运行, 可以看到一个"job scheduler administration"页面.就OK了.

      

     Capacity Scheduler(容量调度器)

         集群由很多队列组成,每个队列有一个分配的能力.在每个队列内部,作业根据FIFO方式(优先级)进行调度.

         本质上,Capacity Scheduler允许用户或组织为每个用户或者组织模拟一个独立的使用FIFO的集群.

压缩

         文件压缩的好处:

         1.可以减少存储文件所需要的磁盘空间.

         2.可以加速数据在网络和磁盘上的传输.

压缩格式 工具   算法      文件扩展名  是否包含多文件  是否可切分   java实现   原生实现

DEFLATE N/A  DEFLATE   .deflate                                                

Gzip      gzip  DEFLATE   .gz                                           是            是

bzip2    bzip2  bzip2      .bz2                                         是            否

LZO      Lzop  LZO         .lzo           否                                          


© 著作权归作者所有

迪allen
粉丝 28
博文 14
码字总数 11554
作品 0
程序员
私信 提问
第6章-MapReduce的工作机制-笔记

作业的提交 可以只用一行代码来运行一个MapReduce作业: JobClient.runJob(conf)。 作业的调度 Hadoop作业调度演进 1、早期版本的Hadoop使用FIFO调度算法来运行作业 早期版本的Hadoop使用一种...

hiqj
2014/10/16
37
0
bigdata hadoop 面试问题一

数据结构 1.栈和队列都是线性数据结构。 2. 栈(FIlO):只能在一端操作,即栈顶(如出栈、入栈),这种只能从一端操作的性质,意味着栈中的元素只能后进先出(先进后出)(last in first out...

八戒_o
2016/02/15
295
0
Hadoop MapReduce优化和资源调度器

Hadoop Shuffle过程 1.Hadoop MapReduce Shuffle过程 Hadoop Shuffle过程 Map Shuffle过程图2 2.Shuffle过程要点记录 每个Map Task把输出结果写到内存中的环形缓冲区。 当内存环形缓冲区写入...

溯水心生
2018/01/14
0
0
《BIG DATA大数据日知录 架构和算法》读书笔记

1.数据分片和路由 Hash Hash H(Key) = hash(key) mod K 虚拟桶(Virtual Buckets) 先hash到桶,在Hash,多加一层Hash便于扩展 一致性Hash 分布式Hash表(DHT),P2P对等网络,构成环,节点加...

selfless
2016/06/18
278
4
yarn任务调度策略

yarn几种调度简介 Yarn 调度器Scheduler详解 fair scheduler详解 fair scheduler每一项配置详解:Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数 官网关于fair scheduler配置详解:Had...

cjun1990
2016/11/01
153
0

没有更多内容

加载失败,请刷新页面

加载更多

全面兼容IE6/IE7/IE8/FF的CSS HACK写法

浏览器市场的混乱,给设计师造成很大的麻烦,设计的页面兼容完这个浏览器还得兼容那个浏览器,本来ie6跟ff之间的兼容是很容易解决的。加上个ie7会麻烦点,ie8的出现就更头疼了,原来hack ie...

前端老手
12分钟前
3
0
常用快递电子面单批量打印api接口对接demo-JAVA示例

目前有三种方式对接电子面单: 1.快递公司:各家快递公司逐一对接接口 2.菜鸟:支持常用15家快递电子面单打印 3.快递鸟:仅对接一次,支持常用30多家主流快递电子面单打印 目前也是支持批量打...

程序的小猿
15分钟前
5
0
Yii 框架中rule规则必须搭配验证函数才能使用

public $store_id;public $user_id;public $page;public $limit;public $list;public $mch_list;public $cart_id;public $is_community;public $shop_id;public $cart_typ......

chenhongjiang
18分钟前
2
0
Flutter使用Rammus实现阿里云推送

前言: 最近新的Flutter项目有“阿里云推送通知”的需求,就是Flutter的App启动后检测到有新的通知,点击通知栏然后跳转到指定的页面。在这里我使用的是第三方插件Rammus来实现通知的推送,之...

EmilyWu
18分钟前
40
0
Knative 实战:三步走!基于 Knative Serverless 技术实现一个短网址服务

短网址顾名思义就是使用比较短的网址代替很长的网址。维基百科上面的解释是这样的: 短网址又称网址缩短、缩短网址、URL 缩短等,指的是一种互联网上的技术与服务,此服务可以提供一个非常短...

阿里巴巴云原生
33分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部