文档章节

hadoop 2.4 namenode ha 源码分析(HealthMonitor)

东方神剑
 东方神剑
发布于 2014/11/04 18:25
字数 662
阅读 452
收藏 0

本文章将详细分析hadoop2.0的namenode  HA的原理,以及部分源码分析。

在2.0 的HA部分,我们可以看到相比原来的1.0,多了DFSZKFailoverController ,JournalNode 进程。

DFSZKFailoverController顾名思义就是用于整个主备切换的控制器。

JournalNode 是active和standby元数据共享的传输介质。

而DFSZKFailoverController主要负责active NN的选举通过ActiveStandbyElector来实现,对于nn本身的监控通过HealthMonitor类来实现,下面我们来分析一下HealthMonitor来究竟做了哪些工作以及对NN的监控调用流程。

对于NN的状态,定义了如下几类:

public enum State {      
    /**              
    * The health monitor is still starting up.          
    */    
    INITIALIZING,    
    /**     
    * The service is not responding to health check RPCs.     
    */    
    SERVICE_NOT_RESPONDING,    
    /**     
    * The service is connected and healthy.    
    */    
    SERVICE_HEALTHY,   
    /**     
    * The service is running but unhealthy.   
    */    
    SERVICE_UNHEALTHY,   
    /**     
    * The health monitor itself failed unrecoverably and can   
    * no longer provide accurate information.    
    */  
    HEALTH_MONITOR_FAILED;  
}

 

可以看到定义了,ok or failed两类状态

 

对于监控的结果,healthMonitor来通过设置回调函数来实现。

public void addCallback(Callback cb) {     
    this.callbacks.add(cb);   
}           
 
public synchronized void addServiceStateCallback(ServiceStateCallback cb){
   this.serviceStateCallbacks.add(cb);   
}

 

addXXXCallback可以动态添加事件回调函数。

真实监控NN的部分

 private class MonitorDaemon extends Daemon

 

通过内部类MonitorDaemon来实现。实现在run方法,通过源码可以看到run方法调用了

 

public void run() {       
    while (shouldRun) {         
        try {            
            loopUntilConnected();           
           doHealthChecks();//监控主方法         
          } catch (InterruptedException ie) {        
                 Preconditions.checkState(!shouldRun,
                     "Interrupted but still supposed torun");       
           }      
    }     
}

进行监控

我们来看下,这部分源码:

/**    
    * 状态监测   
    * @throws InterruptedException    
    */  
private void doHealthChecks() throws InterruptedException {     
    while (shouldRun) {//只有在关闭的时候shouldRun=false,其他一直是true       
        HAServiceStatus status = null;//NN的状态       
       boolean healthy = false;//定义健康程度       
      try {      //proxy为HAService的一个rpc代理,由NameNodeRpcServer实现HA的NN部分         
          status = proxy.getServiceStatus();         
          //本质上调用了NN的monitorHealth方法,而NN的监控方法,主要是对系统资源的一个检查,如无异常,直接返回
          //有异常会throw出HealthCheckFailedException, AccessControlException异常         
         proxy.monitorHealth();         
         healthy = true;      
      } catch (HealthCheckFailedException e) {//异常      
            LOG.warn("Service health check failed for " + targetToMonitor + ": " +e.getMessage());                  
           enterState(State.SERVICE_UNHEALTHY);       
     } catch (Throwable t) {//未知异常,一般是对应的NN没有启动        
           LOG.warn("Transport-level exception trying to monitor health of " +targetToMonitor + ": " + t.getLocalizedMessage());         
            RPC.stopProxy(proxy);        
            proxy = null;        
            enterState(State.SERVICE_NOT_RESPONDING);       
            Thread.sleep(sleepAfterDisconnectMillis);         
            return;       
      }              
      if (status != null) {        
           setLastServiceStatus(status);      
      }      
      if (healthy) {      //设置状态,用于通知回调函数      
          enterState(State.SERVICE_HEALTHY);     
      }      
      Thread.sleep(checkIntervalMillis);    
   }   
}

 而NN的监控,也比较单纯:

synchronized void monitorHealth()        
        throws HealthCheckFailedException, AccessControlException {                     
    namesystem.checkSuperuserPrivilege();    
     if (!haEnabled) {      
        return; // no-op, if HA is not enabled     
     }     
    getNamesystem().checkAvailableResources();     
    if (!getNamesystem().nameNodeHasResourcesAvailable()) {       
         throw new HealthCheckFailedException("
            The NameNode has no resources available");     
   }   
}

 

可以看到其实监控部分,就是一个rpc不断的发送请求,让NN自检测然后在返回相应的数据。

下一步,我们将分析主备选举这块的代码,后面会把这几部分串起来。

本文转载自:http://my.oschina.net/hadooper/blog/338283

共有 人打赏支持
东方神剑

东方神剑

粉丝 65
博文 126
码字总数 93166
作品 0
朝阳
程序员
私信 提问
NameNode HA的实现原理

NameNode HA架构概述 实现架构: 组件描述: Active NN和Standby NN:两台 NameNode 形成互备,一台处于 Active 状态,另外一台处于 Standby 状态,只有主 NameNode 才能对外提供读写服务。 ...

JPblog
2017/12/26
0
0
Hadoop 2.0中单点故障解决方案总结

项目构建 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间...

jackwxh
06/29
0
0
namenode ha切换优化

一、背景 目前namenode使用了ha的部署模式,但系统会经常出现ha的自动切换(namenode节点其实正常)。经过调研发现可能的原因如下: HealthMonitor check本地namenode的rpc端口时超时,导致H...

zouqingyun
2016/12/01
0
0
ASP.NET中用healthMonitor属性用

在ASP.NET 2.0中,可以使用healthMonitoring属性监测事件。healthMonitoring属性是一个基于方法的provider,在这里可以构造自己的provider。利用healthMonitoring属性,我们可以诸如记录错语...

晨曦之光
2012/03/09
60
0
一个关于ceph的可用空间测试

一、环境 节点概述 mon : ceph-node01 ceph-node02 ceph-node03 osd :ceph-node01 ceph-node02 ceph-node03 mds : ceph-node01 ceph-node02 操作系统:Ubuntu 14.10 每个osd主机有一个OSD,......

DavinciRes
2015/01/04
1K
2

没有更多内容

加载失败,请刷新页面

加载更多

十万个为什么之为什么大家都说dubbo

Dubbo是什么? 使用背景 dubbo为什么这么流行, 为什么大家都这么喜欢用dubbo; 通过了解分布式开发了解到, 为适应访问量暴增,业务拆分后, 子应用部署在多台服务器上,而多台服务器通过可以通过d...

尾生
22分钟前
1
0
Docker搭建代码质量检测平台-SonarQube(中文版)

Sonar是一个用于代码质量管理的开源平台,用于管理源代码的质量,可以从七个维度检测代码质量。通过插件形式,可以支持包括java,C#,C/C++,PL/SQL,Cobol,JavaScrip,Groovy等等二十几种编程语言...

Jacktanger
28分钟前
1
0
Windows / Linux / MacOS 设置代理上网的方法汇总

本文汇总了 Windows / Linux / MacOS 设置代理上网的各种方法,总结如下: 1、设置系统代理(Windows、Linux、MacOS) 2、设置代理插件(Chrome、Chromium、Firefox、Opera、QQ等浏览器) 3、...

sunboy2050
昨天
2
0
自定义 Maven 的 repositories

有时,应用中需要一些比较新的依赖,而这些依赖并没有正式发布,还是处于milestone或者是snapshot阶段,并不能从中央仓库或者镜像站上下载到。此时,就需要 自定义Maven的<repositories>。 ...

waylau
昨天
2
0
徒手写一个es6代码库

mkdir democd demonpm initnpm install -g babelnpm install -g babel-clinpm install --save-dev babel-preset-es2015-node5 在项目目录创建两个文件夹 functional-playground ......

lilugirl
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部