文档章节

Hadoop2.6集群动态添加和删除数据节点

aibati2008
 aibati2008
发布于 2016/03/09 17:51
字数 698
阅读 857
收藏 5

     开始之前,应该把所有新增数据节点上的Hadoop环境都配置好(如果要直接复制已经存在节点的hadoop文件夹,应该删掉里面已经产生的集群数据,比如tmp和data目录,不然会出问题)

 

Step1:关闭新加入数据节点的防火墙。

Step2:在各个节点上把新增节点的hosts信息补充完整

Step3:在两个NameNode上,打通向新增数据节点无密钥SSH登录的通道。

Step4:在两个NameNode上的dfs.hosts指定的白名单文件中追加上所有新增的数据节点的hostname,需要更改下hdfs-site.xml,黑名单文件用于排除集群中的节点

 

        <property>
                <name>dfs.hosts</name>
                <value>/usr/hadoop/etc/hadoop/datanode-allow.list</value>
        </property>
        <property>
                <name>dfs.hosts.exclude</name>
                <value>/usr/hadoop/etc/hadoop/datanode-deny.list</value>
        </property>

 

Step5:在namenode上执行如下刷新命令:hdfs dfsadmin -refreshNodes

          可通过hdfs dfsadmin -report或者master:50070 web端口查看当前集群节点状态

Step6:在两个NameNode节点上,更改slaves文件,将要上线的数据节点hostname追加到slaves文件中。在slave上启动datanode和nodemanager进程:

sbin/hadoop-daemon.sh start datanode

sbin/yarn-daemon.sh start nodemanager

用新增节点用jps查看进程,可在master节点通过yarn node -list查看集群情况

Step7均衡block(非必须,根据集群情况设定)

./bin/start-balancer.sh

1) 如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低mapred的工作效率
2) 设置平衡阈值,默认是10%,值越低各节点越平衡,但消耗时间也更长

hdfs balancer -threshold 5

3) 设置balance的带宽,默认只有1M/s

hdfs dfsadmin -setBalancerBandwidth 67108864


 

 

数据节点的删除和上述步骤类似,只不过在master1上修改datanode-allow.list和datanode-deny.list,还有slaves文件并且同步到master2上。整个操作的过程中都不涉及集群的重启~等待刷新的操作结束后,需要下架的机器就可以安全的关闭了。

[root@master  hadoop]# ./bin/ hdfs dfsadmin -refreshNodes
[root@master  hadoop]# ./bin/ hadoop dfsadmin -report

可以查看到现在集群上连接的节点

正在执行Decommission,会显示:
Decommission Status : Decommission in progress  

执行完毕后,会显示:
Decommission Status : Decommissioned

 

 

 

重新加入各个删除的节点

1,在master的datanode-deny.list删除相应机器

2,在master上刷新节点配置情况:

hadoop dfsadmin -refreshNodes  

3,在slave上重启tasktracker进程:

hadoop-daemon.sh start datanode

PS:如果之前没有关闭该slave上的datanode进程,需要先关闭再重新启动。


 

© 著作权归作者所有

aibati2008
粉丝 14
博文 87
码字总数 61726
作品 0
成都
技术主管
私信 提问
分布式任务调度组件--Uncode-Schedule

基于zookeeper+spring task/quartz的分布式任务调度组件,确保所有任务在集群中不重复,不遗漏的执行。支持动态添加和删除任务。 功能概述 基于zookeeper+spring task/quartz的分布任务调度系...

冶卫军
2015/05/29
14.4K
10
liuht777/uncode-scheduler

uncode-schedule 基于Spring Task + Zookeeper的分布式任务调度组件,非常小巧,使用简单,只需要引入jar包。不需要单独部署服务端。确保所有任务在集群中不重复,不遗漏的执行。支持动态添加...

liuht777
2017/10/26
0
0
uncode/uncode-schedule

uncode-schedule 基于zookeeper的分布式任务调度组件,非常小巧,使用简单,只需要引入jar包,不需要单独部署服务端。确保所有任务在集群中不重复,不遗漏的执行。支持动态添加和删除任务。 ...

uncode
2015/05/27
0
0
搭建spark on yarn集群全过程

搭建spark on yarn集群全过程 Mz的博客2016-03-24225 阅读 大数据SparkHadoopYarn 机器配置 在VMware上创建4个虚拟机来搭建集群。其中一个master,三个salve。 每台虚拟机配置1G内存,1核CPU...

Mz的博客
2016/03/24
0
0
hadoop集群配置之hadoop安装部署

hadoop分为单击模式,伪分布式和分布式,本文安装的是分布式。 需要先对linux系统做一些优化,编辑/etc/security/limits.conf nofile是设置限制打开的文件数,noproc是限制用户打开的进程数,...

尚浩宇
2015/05/21
133
0

没有更多内容

加载失败,请刷新页面

加载更多

SIPC的保全存证变现应用才是先见之明

Facebook发起的Libra在接连退群后终于在联盟链上线前官宣成立联盟,同时Telegram公链TON在主网上线前被美国SEC要求退回私募非法所得。两个都拥有活跃用户数上亿的社交平台,一个以1000万美元...

SimpleChain
31分钟前
3
0
Node_初步了解(3)回调,作用域,上下文

本文转载于:专业的前端网站➧Node_初步了解(3)回调,作用域,上下文 1. 1 //回调:回调是异步编程最基本的方法,node.js需要按顺序执行异步逻辑的时候,一般采用后续传递的方式,将后续逻辑...

前端老手
31分钟前
3
0
好程序员Java教程分享Java的五大特点

好程序员Java教程为大家分享Java的五大特点希望对初学者有所帮助。 一、Java的(五大)特点: 1.简单性 相对于c语言来说 c语言的核心 指针(保存地址)*p Java中没有指针的概念(使用的是引用概念...

好程序员官网
33分钟前
3
0
移动端rem适配各种屏幕字体

在页面中引入这个js文件,可以实现各个屏幕的字体自适应: (function (doc, win) { var docEl = doc.documentElement, resizeEvt = 'orientationchange' in window ? 'orientationchange' : ......

流年那么伤
35分钟前
4
0
2019我最喜爱的绿色应用活动投票开始,谁能突出重围?

在去年第一届软件绿色联盟开发者大会上,共有36个绿色应用荣获“2018年度我最喜爱的绿色应用”奖项。活动得到了消费者、开发者与应用厂商的一致好评,刚过完十一假期就有小伙伴们后台留言,问...

软件绿色联盟
46分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部