文档章节

大数据Spark优化读取Hbase--region 提高并行数过程详细解析

金铭鼎IT教育
 金铭鼎IT教育
发布于 2018/12/17 14:29
字数 919
阅读 70
收藏 0

一. Hbase 的 region

       我们先简单介绍下 Hbase 的 架构和 region :

       从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又可以有多个 Hregion(以下简称 region)。要读取一个数据的时候,首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少,而 spark 的 cpu core 又比较多的时候,就会出现无法充分利用 spark 集群所有 cpu core 的情况。

       我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。

  Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个region达到一定的大小就会自动split成两个region。
  Region由一个或者多个Store组成,每个store保存一个columns family,每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中, StoreFile存储在HDFS上。
  region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上,但并不是存储的最小单元。

  二. Spark 读取 Hbase 优化及 region 手动拆分

  在用spark的时候,spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低,浪费性能。但如果region数目太多就会造成读写性能下降,也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。
  自0.94.0版本以来,split还有三种策略可以选择,不过一般使用默认的分区策略就可以满足需求,我们要修改的是会触发 region 分区的存储容量大小。
  而在0.94.0版本中,默认的 region 大小为10G,就是说当存储的数据达到 10 G 的时候,就会触发 region 分区操作。有时候这个值可能太大,这时候就需要修改配置了。我们可以在 HBASE_HOME/conf/hbase-site.xml 文件中,增加如下配置:

<property>
<name>hbase.hregion.max.filesize</name>
<value>536870912</value>
</property>

  其中的 value 值就是你要修改的触发 region 分区的大小,要注意这个值是以 bit 为单位的,这里是将region文件的大小改为512m。
  修改之后我们就可以手动 split region了,手动分区会自动根据这个新的配置值大小,将 region 已经存储起来的数据进行再次进行拆分。
  我们可以在 hbase shell 中使用 split 来进行操作,有以下几种方式可以进行手动拆分。

split ‘tableName’
split ‘namespace:tableName’
split ‘regionName’ # format: ‘tableName,startKey,id’
split ‘tableName’, ‘splitKey’
split ‘regionName’, ‘splitKey’

  这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自不必多说,就是要拆分的表名,namespace可以在hbase的web界面中查看,一般会是default。
  使用命令之后稍等一会,hbase会根据新的region文件大小去split,最终结果可以在web-ui的"table Details"一栏,点击具体table查看。

本文转载自:https://www.itjmd.com/news/show-4298.html

金铭鼎IT教育
粉丝 2
博文 57
码字总数 0
作品 0
昌平
私信 提问
Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region 我们先简单介绍下 Hbase 的 架构和 region : 从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器...

终日而思一
2018/12/15
0
0
Spark SQL在HBase的查询性能优化 - 知乎

云湖湖导读: Spark与HBase是当今非常火的两个大数据开源项目,一个负责数据的分析处理,一个负责数据的存储。 近年来,Spark on HBase尤其是Spark SQL on HBase成为许多企业云上大数据与AI解...

智能数据湖
2019/10/21
0
0
SHC:使用 Spark SQL 高效地读写 HBase

Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的...

HBase
2019/04/02
0
0
k8s集群中 spark访问hbase中数据

版权声明:本文为博主原创文章,转载请注明来源。开发合作联系luanpenguestc@sina.com https://blog.csdn.net/luanpeng825485697/article/details/84101741 首先我们需要对hbase的访问原理非...

数据架构师
2018/11/18
0
0
云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

本资料来自2019-09-26在杭州举办的云栖大会的大数据 & AI 峰会分会。议题名称《New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas》,分享嘉宾李潇,Databricks ...

Delta Lake
2019/09/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

npm 发布webpack插件 webpack-html-cdn-plugin

初始化一个项目 npm init 切换到npm源 淘宝 npm config set registry https://registry.npm.taobao.org npm npm config set registry http://registry.npmjs.org 登录 npm login 登录状态......

阿豪boy
31分钟前
55
0
java基础(16)递归

一.说明 递归:方法内调用自己 public static void run1(){ //递归 run1(); } 二.入门: 三.执行流程: 四.无限循环:经常用 无限递归不要轻易使用,无限递归的终点是:栈内存溢出错误 五.递...

煌sir
35分钟前
35
0
REST接口设计规范总结

URI格式规范 URI中尽量使用连字符”-“代替下划线”_”的使用 URI中统一使用小写字母 URI中不要包含文件(脚本)的扩展名 URI命名规范 文档(Document)类型的资源用名词(短语)单数命名 集合(Co...

Treize
今天
57
0
CentOS-配置YUM源加速(阿里云、Nexus3)

备份本地源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 配置CentOS6 $ wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/......

-自由人生-
今天
80
0
我如何获取一周中开始的DateTime?

我如何只知道C#中的当前时间来查找一周的开始(星期日和星期一)? 就像是: DateTime.Now.StartWeek(Monday); #1楼 丑陋,但至少可以给您正确的日期 通过系统设置星期开始时间: publ...

javail
今天
55
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部