文档章节

hadoop hbase集群断电数据块被破坏无法启动

 张欢19933
发布于 2017/06/26 18:02
字数 833
阅读 111
收藏 0

集群机器意外断电重启,导致hbase 无法正常启动,抛出reflect invocation异常,可能是正在执行的插入或合并等操作进行到一半时中断,导致部分数据文件不完整格式不正确或在hdfs上block块不完整。

在网上查了一下相关资料,怀疑有可能是关闭前一些未提交的修改所存放的log文件数据写入一半文件不完整,故把hbase.hlog.split.skip.errors改成true进行尝试。

关于这个参数作用的解释:

当服务器奔溃,重启的时候,会有个回放的过程,把/hbase/WAL/下面记录的log都回放一遍,合并到每个region中,回放过程中如果有error发生,这个参数又是false,那么exception就会向外层输出,回放失败。

但是很遗憾,将此参数修改后hbase集群仍然无法正常启动。

然后就琢磨其他原因,先观察hbase启动时的60010监控页面,

发现部分region FAILED_OPEN错误,its007-meta表一共200个region,只启动成功199个。

似乎想到了什么,对了,很可能是这个region的数据文件格式不正确,那就先检查一下其在hdfs上的文件是否正常。

果不其然,观察hadoop的50070页面,会提示hadoop文件系统的具体路径上有两个数据块出错。

(关于hbase在hdfs上的目录相关文章链接:HBase在HDFS上的目录树

解决方法:

1.      运行hadoop fsck / -files检查hdfs文件

2.      发现/hbase/oldWALs目录下有一个文件损坏,

运行hadoop fsck / -delete清除损坏的文件

3.      运行hbase hbck -details查看hbase概况,发现Table its007-meta有一个region加载失败

4.      运行hbase hbck -fixMeta尝试修复系统元数据表

5.      运行hbase hbck -fix尝试修复region数据不一致问题。

6.      再次运行hbase hbck -details发现问题仍然未修复,那个region仍然加载失败。

故直接将该region下出错的文件移走,暂时移至hdfs根目录

hadoop fs -move /hbase/data/default/its007-meta/fe6463cba743a87e99f9d8577276bada/meta/9a853fdbe13046fca194051cb9f69f9b /

fe6463cba743a87e99f9d8577276bada是region的名字

9a853fdbe13046fca194051cb9f69f9b是region下出错的HFile,有800k大小(注:一个region下可以有多HFile)

7.      运行hbase hbck -fix重新加载之前失败的region,至此完成修复,丢弃了出错的HFile

总结:

hbase在hdfs上一共两个文件损坏。(关于hdfs文件写入相关文章:hdfs文件写入相关概念

一个是oldWALs下的,这个是存放一些没用的HLog文件的,这里有文件损坏,说明从WALs中转移没用的HLog写到oldWALs下时,写了一半断电导致hdfs上文件数据块出错;

另一个是region下一个HFile文件损坏,这个文件800k比较小,应该是从Memstore flush到HFile时,写了一半没写完导致其在hdfs上的文件数据块出错。

hbase region数据块出现问题可以先修复

查看hbasemeta情况
hbase hbck
1.重新修复hbase meta表
hbase hbck -fixMeta
2.重新将hbase meta表分给regionserver
hbase hbck -fixAssignments

如果修复失败,我们可以删除hdfs上的异常数据,删除META表中对应的region信息。

本文转载自:http://m.blog.csdn.net/xx7330842/article/details/52931702

共有 人打赏支持
粉丝 37
博文 509
码字总数 237880
作品 0
海淀
私信 提问
完全分布式集群(五)Hbase-1.2.6.1安装配置

环境信息 完全分布式集群(一)集群基础环境及zookeeper-3.4.10安装部署 hadoop集群安装配置过程 安装hive前需要先部署hadoop集群 完全分布式集群(二)hadoop2.6.5安装部署 Hbase集群安装部...

PeakFang-BOK
2018/10/16
0
0
记一次测试环境Hbase数据备份恢复以及恢复后部分表无法删除的问题处理

一、Hbase数据备份恢复 说明: 因为测试环境要修改hadoop配置文件hdfs-site.xml的参数hdfs.rootdir 修改前的配置 hbase.rootdir hdfs://masters/hbase1 修改后的配置 hbase.rootdir hdfs://m...

断臂人
2018/06/15
0
0
分布式数据库 Hbase 的高可用管理和监控

HBase 作为 BigTable 的一个开源实现,随着其应用的普及,越来越被各大企业应用于海量数据系统中。本文将向读者简要介绍 Apache HBase 的基本知识,并展开介绍 IBM 对 HBase 的改进和扩展,H...

IBMdW
2013/06/14
3K
1
hbase——安装配置hbase

1.下载hbase的压缩包,解压出来。 2.检查hbase包和hadoop包版本是否一致,替换成hadoop核心jar包。将hadoop集群的hadoop-1.2.1-core.jar替换hbase的lib目录下的hadoop核心包,主要目的是防止...

cjun1990
2015/04/15
0
0
2018-08-13期 Hbase伪分布模式安装部署

说明: Hbase部署模式有以下三种 (1)本地模式:本地模式不依赖于HDFS存储,将文件存储到操作系统本地目录,好处是我们不需要搭建HDFS集群,即可学些HBase相关命令及客户端操作。 (2)伪分...

JackmaSong
2018/08/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Navicat怎样导入Excel表格和txt文本的数据

Navicat怎样导入Excel表格和txt文本的数据 2018年07月02日 11:29:11 零碎de記憶 阅读数:2433 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_39135287/ar...

linjin200
33分钟前
1
0
使用MaxCompute Java SDK运行安全相关命令

使用MaxCompute Console的同学,可能都使用过MaxCompute安全相关的命令。官方文档上有详细的MaxCompute 安全指南 ,并给出了安全相关语句汇总 。 简而言之, 权限管理 、 列级别访问控制 、 ...

阿里云云栖社区
38分钟前
0
0
中小公司的Java工程师应该如何逆袭冲进BAT?

(1)80% Java工程师都有的迷茫 这篇文章,跟大家聊一聊很多很多很多人问我的一个问题:中小公司的Java工程师应该如何规划准备,才能跳槽进入BAT这类一线互联网公司? 之所以我用了三个 “很...

Java填坑路
39分钟前
4
0
你的应用够安全吗?绿标2.0隐私权限详解

近日,最新一期的《绿色应用达标率调查报告》结果显示,应用在安全方面的通过率仅为57%,相较于其他四项标准通过率最低。其中隐私权限的过度获取是主要原因之一,需要开发者尽快完成整改。 ...

安卓绿色联盟
49分钟前
1
0
使用MaxCompute Java SDK运行安全相关命令

使用MaxCompute Console的同学,可能都使用过MaxCompute安全相关的命令。官方文档上有详细的MaxCompute安全指南,并给出了安全相关语句汇总。 简而言之,权限管理、列级别访问控制、项目空间...

阿里云官方博客
54分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部