文档章节

HBase工程师线上工作经验总结----HBase常见问题及分析

vieky
 vieky
发布于 2014/12/10 23:14
字数 2272
阅读 96
收藏 0
点赞 0
评论 0

阅读本文可以带着下面问题:
1.HBase遇到问题,可以从几方面解决问题?
2.HBase个别请求为什么很慢?你认为是什么原因?
3.客户端读写请求为什么大量出错?该从哪方面来分析?
4.大量服务端exception,一般原因是什么?
5.系统越来越慢的原因是什么?
6.Hbase数据写进去,为什么会没有了,可能的原因是什么?
7. regionserver发生abort,遇到最多是什么情况?
8.从哪些方面可以判断HBase集群是否健康?
9.为了加强HBase的安全性,你会采取哪些措施?

在Tcon分布式系统测试实践的分享中,笔者提到了测试人员参与线上问题分析的必要性:
1、测试工作中的问题定位提供了大量经验,可以直接应用于线上。
2、快速的解决问题可以避免大故障的发生。
3、从线上的问题可以帮助我们准确抓住测试的重点和不足。

因此在日常的线上维护工作中,积累和很多HBase的问题分析经验,这里于大家分享一下,如有错误和不足请指出。


问题分析的主要手段
1、监控系统:首先用于判断系统各项指标是否正常,明确系统目前状况
2、服务端日志:查看例如region移动轨迹,发生了什么动作,服务端接受处理了哪些客户端请求。
3、gc日志:gc情况是否正常
4、操作系统日志和命令:操作系统层面、硬件是否故障,当前状况如何
5、btrace:实时跟踪目前服务端的请求和处理情况
6、运维工具:通过内置于系统中的功能,查看服务器实时处理状况
其实以上手段,大部分系统都具备,不过各有各的用法,下面我会通过常见的问题来梳理这6大手段。

常见问题1:个别请求为什么很慢?
个别请求慢是用户遇到最多的问题,首先需要明确是客户端还是服务端原因,进而分析服务端状况以及捕获这些请求来明确定位。
1、通过客户端日志来初步分析下慢请求的规律,尝试在客户端确定请求的rowkey和操作类型。
2、确定是不是一段时间内集中出现慢请求,如果是那么可以参考常见问题2来解决。
3、查看服务端监控,观察响应时间是否平稳,maxResponseTime是否出现峰值。如果存在,那么可以初步确定是服务端问题。
4、客户端分析无效,可以通过运维工具在服务端捕获慢请求的rowkey和操作类型。
5、确定rowkey对应的region,初步查看是否存在数据表参数配置不合理(例如version设置过多、blockcache、bloomfilter类型不正确)、storefile过多、命中率过低等问题。
6、尝试重试这些请求或者直接分析hfile来查看返回结果是否过大,请求是否耗费资源过多。
7、查看服务端关于hdfs的监控和日志,以及datanode日志,来分析是否存在hdfs块读取慢或者磁盘故障。

常见问题2:客户端读写请求为什么大量出错?
读写请求大量出错的现象主要有两类:1、大量出现服务端exception 2、大量超时。其中第一种有异常信息较好判断问题所在。
1、大量服务端exception一般是region不在线导致的,可能是region在split但是时间很长超过预期,或是meta数据错误导致客户端获取region location错误。以上现象均可通过日志来定位。
2、遇到大量超时,首先应该排除服务端是否出现了fullgc或者ygc时间过长。前者可能由于内存碎片、cms gc速度来不及导致,后者一般是由于系统使用了swap内存。
3、通过系统命令和日志来查看是否有机器load过高,磁盘压力过大,磁盘故障。
4、查看监控是否出现callqueue积压,请求无法得到及时处理,进一步通过call查看工具或者jstack可以查看正在处理的call和进程堆栈信息。
5、通过datanode日志和hbase访问dfs的时间,来判断问题是否在hdfs层。
6、查看监控判断是否出现blocking update,memstore是否已接近系统设置的上限。

常见问题3:系统为什么越来越慢了?
系统原来挺快的,为什么越来越慢?多数是不合理的服务端配置导致的,可以通过以下几个方面来分析。
1、磁盘读写和系统load是不是比以前高了,初步判断导致系统变慢的原因。
2、如果磁盘读写加剧,重点查看flush是否过小,compact是否过频,尤其是major compact是否有必要,从测试结果来看compact产生的磁盘io对系统性能影响很大。
3、单个region的storefile个数是否有成倍提高
4、命中率是否有下降趋势
5、regionserver是否存在region分配不均衡导致的读写集中,或者读写handler的竞争
6、datablock的本地化率是否出现下降
7、是否存在datanode运行不正常,可以通过监控查看是否有个别机器读取block时间明显偏高

常见问题4:数据为什么没了,明明写进去过?
数据丢失也是HBase的常见bug,分为临时性和永久性两类。临时性的丢失往往是由于hbase本身的正确性问题导致瞬间读取数据错误。永久性丢失一般是日志恢复bug或者region的二次分配。
1、首先可以通过hbck或者master日志排查丢失的数据所在region是否发生过二次分配
2、集群中的regionserver是否出现过abort,日志是否正确恢复。
3、扫描storefile确定目前数据情况
4、扫描logs或者oldlogs中的文件来确定是否写入过这些数据,以及写入数据的时间,配合rs的日志来确定当时server的行为
5、根据写入数据的时间,确定regionserver是否正确完成了flush并且将数据写入磁盘

常见问题5:为什么有服务器进程挂了?
regionserver发生abort的场景很多,除了系统bug引起的以外,线上遇到最多的就是fullgc引起的zk节点超时和文件系统异常。
1、查看regionserver日志查询FATAL异常,确定异常类型
2、查看gc日志确定是否发生fullgc或者ygc时间过长
3、如果没有征兆,日志突然中断,首先需要考虑是否发生了OOM(0.94版本会直接kill -9)。
4、可以通过系统内存监控判断是否出现被占满的情况
5、查看datanode是否出现异常日志,regionserver可能由于roll log或者flush时的文件系统异常导致abort
6、排除人为调用stop的情况

HBase健康体检
一个集群似乎否健康,大体可以从以下几个方面来判断
1、单region的storefile数量是否合理
2、memstore是否得到合理的利用,此项指标与hlog的数量和大小相关
3、compact和flush的流量比值是否合理,如果每天仅flush 1G却要compact几十上百G就是明显的浪费
4、split似乎否过频,能否采取pre-sharding的方式来预分配region
5、集群的region是否过多,zk在默认参数下无法支撑12w以上的region个数,并且region过多也会影响regionserver failover的时间
6、读写相应时间是否合理,datablock的读取延时是否符合预期
7、flush队列、callqueue长度、compact队列是否符合预期。前两者的积压都会造成系统不稳定。
8、failedRequest和maxResponseTime
9、gc状况,过长的ygc和过频的cms都需要警惕

运维工具
HBase官方版本的可运维性的确很差,为了能最大限度的保证线上系统安全,快速定位故障原因,阿里做了很多建设性的工作。
1、建立了完整的监控体系,根据日常测试和线上运行经验,加入了很多监控点。
2、监控的粒度达到region级别
3、call dump和线上慢请求追踪功能
4、btrace脚本体系,出现问题直接运行查看程序内部信息
5、日志收集和报警
6、在线表维护工具和storefile、logs分析工具

本文转载自:http://www.aboutyun.com/thread-6929-1-1.html

共有 人打赏支持
vieky
粉丝 10
博文 54
码字总数 47106
作品 0
长沙
高级程序员
中国HBase技术社区第一届MeetUp-HBase2.0研讨圆桌会

HBase Committers&各公司HBase负责人 出席嘉宾(排名不分次序): 封神(HBase Committer,阿里) 天梧(HBase Committer,阿里) 陈恒(HBase Committer,蚂蚁金服) 李钰(HBase PMC,阿里) 王锋(奇...

wenzi0563 ⋅ 06/14 ⋅ 0

多位HBase Committer圆桌会,讨论HBase2.0技术变革

HBase Committers&各公司HBase负责人 出席嘉宾(排名不分次序): 封神(HBase Committer,阿里) 天梧(HBase Committer,阿里) 陈恒(HBase Committer,蚂蚁金服) 李钰(HBase PMC,阿里) 王锋(奇...

HBase技术社区 ⋅ 昨天 ⋅ 0

兑吧:从自建HBase迁移到阿里云HBase实战经验

业务介绍 兑吧集团包含兑吧网络和推啊网络,兑吧网络是一家致力于帮助互联网企业提升运营效率的用户运营服务平台,提供积分商城和媒体运营服务。推啊网络是一家互动式广告平台,经过多年的探...

所在jason ⋅ 06/12 ⋅ 0

云HBaseSQL及分析-Phoenix&Spark

在2018年1月的数据库直播大讲堂峰会HBase专场,来自阿里云的研发工程师瑾谦和沐远分享了云HBaseSQL以及分析Phoenix&Spark。本文介绍了详细了Phoinix和Spark的架构,适用性以及优缺点,并在最...

HBase技术社区 ⋅ 06/05 ⋅ 0

中国HBase技术社区第一届meetup入群邀请

各位报名成功的HBase爱好者,请扫描以下微信二维码,加入本次HBase meetup消息通知群,后续会议相关通知,会在群里进行公布,请各位及时关注。 会议地址:北京望京阿里中心B座(各位6号到园区...

wenzi0563 ⋅ 05/31 ⋅ 0

普及HBase,阿里云HBase团队在行动

一、HBase的历史由来 HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起...

所在jason ⋅ 05/23 ⋅ 0

HIVE和HBASE之间,主要的区别是什么?

  【IT168 评论】Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hiv...

中国大数据 ⋅ 05/18 ⋅ 0

企业打开云HBase的正确方式,来自阿里云云数据库团队的解读

摘要: 一、HBase的历史由来 HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server...

阿里云云栖社区 ⋅ 05/31 ⋅ 0

八年磨一剑,重新定义HBase——HBase 2.0&阿里云HBase解读

摘要:2018年6月6日,阿里云ApsaraDB for HBase2.0正式发布!从2010年开始“试水”到2018年,拥有了3个PMC,6个Committer,拥有中国最多HBase Committer的公司之一的阿里巴巴是如何八年磨一剑...

Mr_zebra ⋅ 06/13 ⋅ 0

中国HBase技术社区第一届Meetup资料大合集

2018年6月6号,由中国HBase技术社区组织,阿里云主办的中国第一次HBase Meetup在北京望京阿里中心举行,来自阿里、小米、滴滴、360等公司的各位HBase的PMC、committer共聚一堂,共同探讨HBa...

wenzi0563 ⋅ 06/14 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Spring Cloud构建微服务架构—创建“服务注册中心”

创建一个基础的Spring Boot工程,命名为eureka-server,并在pom.xml中引入需要的依赖内容: <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-par......

itcloud ⋅ 刚刚 ⋅ 0

拖动

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>event</title> <style> #box { width: 100px; height: 100px; background-color: aquamarine; position: absolute; } </style......

fyliujj ⋅ 3分钟前 ⋅ 0

es6 polyfill array

polyfill之javascript函数的兼容写法——Array篇 1. Array.isArray(obj) if (!Array.isArray) { Array.isArray = function(arg) { return Object.prototype.toString.call(arg) === '[objec......

球球 ⋅ 5分钟前 ⋅ 0

kibana启动异常

检查一下:kibana.yml 每一对key:value中,冒号之后应有空格。

增删改查1 ⋅ 7分钟前 ⋅ 0

js修改img的src属性刷新图片时的图片缓存问题

问题:上传一张图片,通过js更新src属性刷新图片使其即时显示时, 当img的src当前的url与上次地址无变化时(只更改图片,名称不变,不同图片名称相同)图片不变化(仍显示原来的图片) 但通过...

HaierBrother ⋅ 7分钟前 ⋅ 0

Mysql

1.Jdbc Url 设置allowMultiQueries为true和false mysql的批量更新是要我们主动去设置的, 就是在数据库的连接url上设置一下,加上* &allowMultiQueries=true *即可。 参数名称 参数说明 缺省...

瑟青豆 ⋅ 10分钟前 ⋅ 0

mysql导出导入表结构与数据

当我们需要进行数据迁移时,mysql自带的mysqldump会是最好的方式。 1.导出某张表的结构和数据 首先,我们应当使用服务器,打开终端,连接到所需要导出的表所在的服务器上。执行命令: mysqld...

hengbao5 ⋅ 11分钟前 ⋅ 0

世界杯也走向“比拼”大数据的时代

《日本经济新闻》6月19日报道称,俄罗斯足球世界杯已于6月14日揭开战幕。作为第21次举办的足球世界杯,如何活用大数据有可能成为决定各支球队胜负的重要因素。从对阵球队的分析到战术建议,还...

加米谷大数据 ⋅ 11分钟前 ⋅ 0

金额转为千分制,金额转中文大写

金额转关为大写 js /** 数字金额大写转换(可以处理整数,小数,负数) */ function digitUppercase(n){ if(!n) reutrn "" let fraction = ['角', '分']; let digit = ['零', '壹', '贰', '叁', ...

YXMBetter ⋅ 14分钟前 ⋅ 0

开发利器JRebel部署SpringBoot项目

不要以为年纪轻轻就跌倒了人生谷底,未来还有更大的下降空间等着你。 idea下载和安装JRebel 激活JRebel 访问https://my.jrebel.com/ 使用facebook或twitter登录 勾选 Build project automati...

郑龙飞 ⋅ 20分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部