文档章节

HBase 架构与工作原理2 - HBase 组件

飓风2000
 飓风2000
发布于 06/17 17:40
字数 2018
阅读 21
收藏 1

一、HBase 组件概览

Master-Slave 模式: HBase 体系结构遵循传统的 master-slave 模式,由一位掌握决策的主设备和一个或多个真正处理任务的从设备组成。在 HBase 中,主设备称为 HMaster,从设备被称为 HRegionServers,主从设备之间则通过 Zookeeper 共享状态信息。

HBase 组成: 从物理层面,HBase 由 3 个部分:

  • Region Servers
  • HBase Master
  • Zookeeper

它们在程序中的实现分别为:

  • HRegionServers 节点
  • HMaster 节点
  • Zooeeper 节点

Region Servers 为客户端的读写提供数据,访问数据时,客户端直接与 Region Servers 通信。Region 分配、DDL(创建、删除表)操作则由 HBase Master 处理。Zookeeper 作为 HDFS 的一部分,维护者一个活动的集群的状态。

所有的 HBase 数据都存储在 HDFS 中,即 DataNode 负责存储 RegionServers 正在管理的数据。实际的架构中,会在每个 DataNode 节点上部署一个对应的 RegionSevers,这使得 RegionSevers 所管理的数据距离实际的存储更接近,这也符合了 HDFS 目标之一:移动计算而非移动数据。

这里写图片描述

HRegionServers

RegionServers 主要负责服务和管理 Regions,它提供面向数据和 Region 维护的方法,其中包括:

  • 数据的读写、删除等
  • Region 的分离(Split)、压缩(compact)等

Region

Region 是 Table 可用性和分布的基本元素,由每个列族(ColumnFamily)的一个库(Store) 组成。其对象层级如下:

- Table
  - Region
    - Store(由每个 Region 中的列族组成的存储块)
      - MemStore(每个 Region 中存储在内存中的 Store)
      - StoreFile(每个 Region 中被持久化后的 Store)
        - Block (StoreFile 内被分块存储后的块)

分区存储: HBase 按照行键(RowKey)范围水平划分 Regions,一个 Region 包含了该 Region 的 startKey (开始键)到 endKey (结束键)之间的所有行。这些 Region 被分配给各个 RegionServers,每个 RegionServer 可以服务约 1000 个 Region。

这里写图片描述

HMaster

HMaster 是 Master Server 的实现,它负责监视集群中的所有 RegionServer 实例,并且提供所有元数据更改的接口。HMaster 主要功能包括:

  • 协调 RegionServer
    • 在启动时分配 Region、重新分配 Region 以恢复或负载均衡
    • 监控集群中的所有 RegionServers 节点(侦听来自 Zookeeper 的通知)
  • 管理功能
    • 提供创建、修改、删除、启动、禁用 table 的接口
    • 管理 namesapce 和 table 的元数据
    • 管理 Region 的移动、分配、取消分配
    • 权限控制

这里写图片描述

同时,HMaster 运行着几个后台进程,包括:

  • 负载平衡器(LoadBalancer): 定期地,如果没有任何 Region 被转换时,负载平衡器将运行并移动 Region 平衡集群负载;
  • Catalog Janitor: 定期检查并清理 .META 表。

Zookeeper

HBase 使用 Zookeeper 作为分布式协调服务来维护集群中的服务器状态。Zookeeper 维护哪些服务器处于活动状态并可用,并提供服务器故障通知。Zookeeper 使用共识来保证共同的共享状态。根据 Zookeeper 使用的 Paxos 算法特性,至少应该有三至五台机器达成共识。

这里写图片描述

二、组件间如何协同工作

使用 Zookeeper 共享成员信息: HBase 使用 Zookeeper 来协调 HMasters 与 RegionServers 成员的共享状态信息。RegionServers 和活动状态的 HMaster 通过会话连接到 Zookeeper,并在 Zookeeper 上创建一个临时节点以表示其处于活动状态。Zookeeper 则通过接收各成员的心跳信息来维护会话的临时节点,如果RegionServers 或活动的 HMaster 未能向 Zookeeper 发送心跳,则代表会话过期,Zookeeper 将删除相应的临时节点。HMaster 通过监听 Zookeeper 上 RegionServer 创建的临时节点来发现可用的 RegionServer,并监控这些节点的服务器故障。

这里写图片描述

HMaster 选举: HMaster 通过争夺创建一个短暂的节点,Zookeeper 会选择第一个来确保只有一个 HMaster 处于活动状态。活动的 HMaster 将心跳发送到 Zookeeper,非活动状态的 HMaster 将监听活动的 HMaster 故障的通知,一旦发现活动的 HMaster 失败,则非活动的 HMaster 将变为活动状态。

三、RegionServers 的组件

RegionServer 作为管理 Region,并直接与客户端传输数据的节点,其运行在 HDFS 的 DataNode 节点之上,并具有以下组件:

  • WAL: 预写日志,用于存储尚未被永久保存的新数据,它以文件的形式存储在分布式文件系统(通常是 HDFS)上,其主要作用是用于故障后的恢复;
  • BlockCache: 读取缓存,它将频繁读取的数据存储在内存中,用以加快客户端的读取速度。最近最少使用的数据将在 BlockCache 满时被逐出,其默认的最大值为 Java 堆大小 * 0.4,默认的缓存方式为 LruBlockCache(一种完全在 Java 堆内的缓存,另外一种方式为 BucketCache);
  • MemStore: 写入缓存,它存储尚未写入磁盘的新数据,用以减少磁盘 IO 频率。它在写入磁盘之前将进行排序。++每个 Region 的每个列族都有一个 MemStore。++
  • HFiles: 用于将行数据作为已排序的 KeyValues 结构存储在磁盘上的最终文件,一个 Region 通常包含多个 HFile。

这里写图片描述

HFile (StoreFile)

HBase 的数据最终被存储在 HFile 中,HFile 是保存在 HDFS 中的物理文件(默认大小为 128M),它包含已经排序过的 KeyVelue 数据。

注:HFile 中的数据是有序的,但同一个 Region 下的所有 HFile 并不一定是连续有序的。

当 MemStore 累积足够的数据时(默认为128M),整个已排序的 KeyValues 集将被写入 HDFS 中的新的 HFile 文件中(这是一个顺序写入,避免了移动磁盘驱动器磁头,所以它的速度会非常快)。

这里写图片描述

KeyVelue

KeyVelue 类是 HBase 中数据存储的核心。KeyVelue 包装一个字节数组,并将偏移量和长度放入传递的数组中,指定将内容开始解释为 KeyVelue 的位置。

字节数组中的 KeyVelue 数据结构表现为:

{
    keylength,
    valuelength,
    key: {
        rowLength,
        row (i.e., the rowkey),
        columnfamilylength,
        columnfamily,
        columnqualifier,
        timestamp,
        keytype (e.g., Put, Delete, DeleteColumn, DeleteFamily)
    }
    value
}

注:keytype 用来标识数据操作类型,当删除操作发生时,HBase 新建一条相同的数据,并使 keytype=delete,便代表了此数据被删除。

Block

StoreFile(HFile) 由 block 组成,block 的大小基于每个 ColumnFamily 进行配置,可在创建表时指定,默认大小为 64 KB。数据压缩也是发生在 block 级别。

HFile 结构

HFile 包含一个多层索引,它允许 HBase 在不必读取整个文件的情况下查找数据。多级索引就像一颗 B+ 树,它具有如下特点:

  • KeyValue 对按升序存储
  • 索引指向包含 KeyValue 数据的“block”(默认大小为 64KB)
  • 每个 block 都有自己的叶子索引(Leaf ndex)
  • 每个 block 的最后一个 key 放在中间索引(Intermediate index)中
  • 根索引指向中间索引

同时,文件的结尾包含一个 trailer 信息,它指向所有的块。并且该 tariler 还具有 Bloom 过滤器和时间范围等信息。Bloom 过滤器有助于跳过不包含某个行键的文件。如果文件不再读取的时间范围内,则时间范围信息对于跳过该文件非常有用。

注:一个 keyValue 不会在 block 之间被拆分,即如果一个 KeyValue 大小为 8M,即使 block 大小设置是 64KB,这个 KeyValue 也将作为一个连贯的 block 被存储。

HFile 结构

HFile 索引

HFile 的索引是在 HFile 打开并保存在内存中时被加载的,它被保存在 BlockCache(即读取缓存)中,这就允许通过单个磁盘寻道来执行查找功能。

这里写图片描述

参考链接

本文转载自:https://www.cnblogs.com/likui360/p/10621277.html

飓风2000
粉丝 40
博文 378
码字总数 147647
作品 0
浦东
高级程序员
私信 提问
弥补MySQL和Redis短板:看HBase怎么确保高可用

HBase是一个基于Hadoop面向列的非关系型分布式数据库(NoSQL),设计概念来源于谷歌的BigTable模型,面向实时读写、随机访问大规模数据集的场景,是一个高可靠性、高性能、高伸缩的分布式存储...

张小渔
03/26
0
0
中国HBase技术社区第八届MeetUp ——HBase应用实践专场

中国HBase技术社区第八届MeetUp ——HBase应用实践专场 HBase—Hadoop Database是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据...

阿里云栖开发者沙龙
2018/11/13
28
0
分布式数据库 Hbase 的高可用管理和监控

HBase 作为 BigTable 的一个开源实现,随着其应用的普及,越来越被各大企业应用于海量数据系统中。本文将向读者简要介绍 Apache HBase 的基本知识,并展开介绍 IBM 对 HBase 的改进和扩展,H...

IBMdW
2013/06/14
3.1K
1
中国HBase技术社区第八届MeetUp ——HBase应用实践专场

中国HBase技术社区第八届MeetUp ——HBase应用实践专场 HBase—Hadoop Database是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据...

阿里云栖技术沙龙
2018/11/13
37
0
Hadoop(4)--Hbase

Hadoop 其它组成角色介绍--Hbase 在apache的官方网站上,对于Hbase的定义是他是Hadoop的第一个分布式、可扩展的大数据存储的数据库,他的目标是将非常大的表托管到一个集群中进行相应的存储,...

spark009
2018/08/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

cpu load过高问题排查

load average的概念 top命令中load average显示的是最近1分钟、5分钟和15分钟的系统平均负载。 系统平均负载被定义为在特定时间间隔内运行队列中(在CPU上运行或者等待运行多少进程)的平均进程...

mskk
34分钟前
5
0
用spring boot 实现websocket

import java.io.IOException;import javax.websocket.OnClose;import javax.websocket.OnError;import javax.websocket.OnMessage;import javax.websocket.OnOpen;import java......

jingshishengxu
45分钟前
4
0
shell介绍,命令历史,命令补全和别名,通配符,输入输出重定向,管道符和作业控制

shell介绍 可以使用 yum list |grep zsh 或者 yum list |grep ksh 这样可以搜索 zsh 和 ksh ,有需要的话可以安装 总之,默认使用的就是 .bash shell 命令历史 输入过的命令会被保存在一个文...

doomcat
今天
7
0
1995年的资深工程师,和你谈谈如何进阶

1995年的资深工程师,和你谈谈如何进阶 自我介绍 网络ID:杭城小刘,城市:顾名思义,人在杭州。1995年出生,本科毕业,现在是一名 iOS 资深工程师,年薪 35w。兴趣爱好广泛:乒乓球、美食、...

杭城小刘
今天
10
0
Kafka 面试题

1.Kafka中的ISR、AR代表什么? ISR:与leader保持同步的follower集合 AR:分区的所有副本 2.Kafka中的HW、LEO分别代表什么? LEO:每个副本的最后条消息的offset HW:一个分区中所有副本最小...

GrayWorld
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部