文档章节

解决HBase Replication在数据大量写入时导致RegionServer崩溃问题

liangtee
 liangtee
发布于 2014/10/29 12:40
字数 1420
阅读 6383
收藏 4

HBase在0.90之后的版本提供Replication功能,这些天本人在测试这个功能时发现在大量数据(>100W)写入时会出现RegionServer崩溃的情况。异常日志如下:

2014-10-29 10:40:44,225 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception  for block blk_-2223802775658985697_1410java.io.EOFException
	at java.io.DataInputStream.readFully(DataInputStream.java:180)
	at java.io.DataInputStream.readLong(DataInputStream.java:399)
	at org.apache.hadoop.hdfs.protocol.DataTransferProtocol$PipelineAck.readFields(DataTransferProtocol.java:124)
	at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$ResponseProcessor.run(DFSClient.java:2967)

2014-10-29 10:40:44,225 INFO org.apache.hadoop.hdfs.DFSClient: Could not obtain block blk_-2223802775658985697_1410 from any node: java.io.IOException: No live nodes contain current block. Will get new block locations from namenode and retry...
2014-10-29 10:40:44,228 WARN org.apache.hadoop.hdfs.DFSClient: Error Recovery for block blk_-2223802775658985697_1410 bad datanode[0] 192.168.11.55:40010
2014-10-29 10:40:44,232 WARN org.apache.hadoop.hdfs.DFSClient: Error while syncing
java.io.IOException: All datanodes 192.168.11.55:40010 are bad. Aborting...
	at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.processDatanodeError(DFSClient.java:3096)
	at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2100(DFSClient.java:2589)
	at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2793)
2014-10-29 10:40:44,235 FATAL org.apache.hadoop.hbase.regionserver.wal.HLog: Could not sync. Requesting close of hlog
java.io.IOException: Reflection
	at org.apache.hadoop.hbase.regionserver.wal.SequenceFileLogWriter.sync(SequenceFileLogWriter.java:310)
	at org.apache.hadoop.hbase.regionserver.wal.HLog.syncer(HLog.java:1366)
	at org.apache.hadoop.hbase.regionserver.wal.HLog.sync(HLog.java:1476)
	at org.apache.hadoop.hbase.regionserver.HRegion.syncOrDefer(HRegion.java:5970)
	at org.apache.hadoop.hbase.regionserver.HRegion.doMiniBatchMutation(HRegion.java:2490)
	at org.apache.hadoop.hbase.regionserver.HRegion.batchMutate(HRegion.java:2190)
	at org.apache.hadoop.hbase.regionserver.HRegionServer.multi(HRegionServer.java:3888)
	at sun.reflect.GeneratedMethodAccessor33.invoke(Unknown Source)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
	at java.lang.reflect.Method.invoke(Method.java:597)
	at org.apache.hadoop.hbase.ipc.WritableRpcEngine$Server.call(WritableRpcEngine.java:323)
	at org.apache.hadoop.hbase.ipc.HBaseServer$Handler.run(HBaseServer.java:1434)
Caused by: java.lang.reflect.InvocationTargetException
	at sun.reflect.GeneratedMethodAccessor35.invoke(Unknown Source)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
	at java.lang.reflect.Method.invoke(Method.java:597)
	at org.apache.hadoop.hbase.regionserver.wal.SequenceFileLogWriter.sync(SequenceFileLogWriter.java:308)
	... 11 more
Caused by: java.io.IOException: DFSOutputStream is closed
	at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.sync(DFSClient.java:3669)
	at org.apache.hadoop.fs.FSDataOutputStream.sync(FSDataOutputStream.java:97)
	at org.apache.hadoop.io.SequenceFile$Writer.syncFs(SequenceFile.java:995)
	... 15 more


实际上,这个问题并不是由Replication功能引起的,而由客户端在数据密集写入时超时引起的

============================以下内容来源于网络===================================

正常情况下DFSClient写block数据的过程是:

1. DFSClient端
   a)DFSOutputStream负责数据的接收和写入,即通过DFSOutputSummer中的write方法(synchronized)获得数据,而sync(主要代码 synchronized(this))通过FlushBuffer建立packet后,通过enqueuePacket向dataQueue中写入数据。
   b)DFSOutputStream中的DataStreamer(Daemon线程),负责向DataNode发送数据,每次发送前会检查dataQueue中是否有数据,没有就等待。
   c)DataStreamer建立pipeline传输数据时,对这个pipeline会起一个ResponseProcessor(Thread)去获得DataNode的反馈ack,并判断是否有错误、进行recoverBlock等
2. DataNode端
   a)在每个packet传输过程中,根据建立数据传输的pipleLine,上游依次向下游发送数据,下游依次向上游发送ack。
   b)pipeline的最后一个节点(numTarget=0),PacketResponder 会一直运行lastDatanodeRun?方法,这个方法会在ack发送完毕(ackQueue.size()=0)后约1/2个dfs.socket.timeout?时刻发送心跳包,沿着pipeline发送给client。
3. HBase端
  HBase端通过hlog中的writer向hdfs写数据,每次有数据写入,都会sync。同时,HLog中有个logSyncer,默认配置是每秒钟调用一次sync,不管有没有数据写入。


这个问题首先是由于超时引起的,我们先分析一下超时前后DFSClient和DataNode上发生了什么。
1. 问题重现
    a)客户端ResponseProcessor报69秒socket超时,出错点在PipelineAck.readFields()。出错后直接catch,标记hasError=true,closed=true。这个线程不会停止。
    b)DataStreamer在轮询中调用processDatanodeError对hasError=true进行处理。此时errorIndex=0(默认值),首先会抛出Recovery for Block的异常. 然后关闭blockstream,重新基于两个节点的pipeline进行recoverBlock。
    c)在DataNode上,processDatanodeError()关闭blockstream。这将导致pipeline中的packetResponder被interrupted和terminated。
    d)在DataNode上,processDatanodeError()关闭blockstream,导致BlockReceiver的readNextPacket()中的readToBuf读取不到数据,throw EOFException的异常。这个异常一直向上抛,直到DataXceiver的run中,它将导致DataXceiver中止运行,提示DataNode.dnRegistration Error。
   e)recoverBlock会正常进行,并先在两个节点上完成(第二个和第三个)。随后Namenode会发现replicas数量不足,向DataNode发起transfer block的命令,这是一个异步的过程。但是在hlog检查时,transfer很有可能未完成,这时会报 pipeline error detected. Found 2 replicas but expecting 3 replicas。并关闭hlog。


以上就是根据日志可以看到的错误过程。
2. 问题分析
a)为什么会超时,为什么心跳包没有发?
根据以上的分析,ResponseProcessor socket 69秒超时是导致后续一系列异常和hlog关闭的原因。那么为何会发生socket超时?ResponseProcessor应该会在dfs.socket.timeout的1/2时间内收到HeartBeat包。
经过打印日志,我们发现,DataNode上配置的dfs.socket.timeout为180秒,而HBase调用DFSClient时采用默认配置,即60秒。因此,DFSClient认为超时时间为3×nodes.length+60=69秒,而DataNode端发送心跳包的timeout=1/2×180=90秒!因此,如果在没有数据写入的情况下,DataNode将在90秒后发送心跳包,此时DFSClient已经socketTimeout了,并导致后续的一系列现象。
b)为什么会在69秒内没有新的packet发送过去呢?
我们先分析一下DFSOutputStream写数据和sync的同步关系。DFSOutputStream继承自FSOutputSummer,DFSOutputStream接收数据是通过FSOutputSummer的write方法,这个方法是synchronized。而sync方法的flushBuffer()和enqueuePacket(),也在synchronized(this)代码块中。也就是说,对一个DFSOutputStream线程,如果sync和write同时调用,将发生同步等待。在HBase的场景下,sync发生的频率非常高,sync抢到锁的可能性很大。这样,就很有可能在不断的sync,不断的flushBuffer,但是却没能通过write写入数据(被blocked了)。这就是导致超时时间内一直没有packet发送的原因。

综上,HBase业务调用的特点和DFSOutputStream的synchronized代码块,很有可能69秒中没有packet写入。但这个时候,不应该socket超时,socket超时是这个问题的根本原因,而socket超时的原因是配置不一致。


3. 问题解决

在hdfs端和HBase端,给dfs.socket.timeout设置一个较大的值,比如300000(300秒)【注意两处设置的值要相等】

© 著作权归作者所有

共有 人打赏支持
liangtee
粉丝 106
博文 94
码字总数 38111
作品 0
朝阳
程序员
私信 提问
深入解读HBase2.0新功能之高可用读Region Replica

为什么需要Region Replica 在CAP理论中,HBase一直是一个CP(Consistency&Partition tolerance)系统。HBase一直以来都在遵循着读写强一致的语义。所以说虽然在存储层,HBase依赖HDFS实现了数...

HBase技术社区
06/07
0
0
深入解读HBase2.0新功能之高可用读Region Replica

前言 基于时间线一致的高可用读(Timeline-consistent High Available Reads),又称Region replica。其实早在HBase-1.2版本的时候,这个功能就已经开发完毕了,但是还是不太稳定,离生产可用...

正研
06/04
0
0
Apache HBase 2015 年发展回顾与未来展望

编者按:高可用架构推出 2015 年度回顾系列文章,分享在架构领域具有典型意义的年度案例,本文由张虔熙分享。转载请注明来自高可用架构公众号「ArchNotes」。 张虔熙,Hulu 网,专注于分布式...

oschina
2016/01/05
3.3K
4
HBase解决Region Server Compact过程占用大量网络出口带宽的问题

HBase 0.92版本之后,RegionServer的Compact过程根据待合并的文件大小分为smallcompaction和large compaction两种,由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将...

超人学院
2015/05/26
0
0
HBase原理之HBase MetaStore&Compaction剖析

1.概述 客户端读写数据是先从HBase Clienr获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MetaStore,为什么会写到MetaStore。本篇文章将为读者剖析HBa...

HBase技术社区
09/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Kafka+Flink 实现准实时异常检测系统

1.背景介绍 异常检测可以定义为“基于行动者(人或机器)的行为是否正常作出决策”,这项技术可以应用于非常多的行业中,比如金融场景中做交易检测、贷款检测;工业场景中做生产线预警;安防...

架构师springboot
40分钟前
4
0
DecimalFormat 类基本使用

/* * DecimalFormat 类主要靠 # 和 0 两种占位符号来指定数字长度 * 0 表示如果位数不足则以 0 填充 * # 表示只要有可能就把数字拉上这个位置 * */ public static void main(String[] args){...

嘴角轻扬30
57分钟前
4
0
This APT has Super Cow Powers.

在Debian/Ubuntu上,apt包管理器内嵌着一个彩蛋. 如果你在命令行界面输入 apt help 在最后一行能找到This APT has Super Cow Powers. 说明该apt具有超级牛力 牛力是个什么梗? 则说明你的系统...

taadis
今天
3
0
起薪2万的爬虫工程师,Python需要学到什么程度才可以就业?

爬虫工程师的的薪资为20K起,当然,因为大数据,薪资也将一路上扬。那么,Python需要学到什么程度呢?今天我们来看看3位前辈的回答。 1、前段时间快要毕业,而我又不想找自己的老本行Java开发...

糖宝lsh
今天
9
0
携手开发者共建云生态 首届腾讯云+社区开发者大会在京举办

本文由云+社区发表 北京时间12月15日,由腾讯云主办,极客邦科技、微信、腾讯TEG协办的首届腾讯云+社区开发者大会在北京朝阳悠唐皇冠假日酒店举办。在会上,腾讯云发布了重磅产品开发者平台以...

腾讯云加社区
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部