文档章节

HBase中Scan类属性maxResultSize的说明

彭苏云
 彭苏云
发布于 2015/02/05 13:26
字数 1343
阅读 4711
收藏 26

有同学希望调用Scan.setMaxResultSize(long)这个方法来设置scan扫描后返回的条数,目前我的理解,这个属性能到一定的限制作用,但是很多时候不会向你想的那样其作用,下面我来进行一些说明。

如果你看过HRegionServer的启动过程,你会发现他也有一个类似的属性maxScannerResultSize(配置文件中通过hbase.client.scanner.max.result.size设置),其实这个值就是Scan做扫描时候maxResultSize的默认值,那这个maxResultSize到底有什么用,我们看下面的源码(摘自hbase0.98.9 HRegionServer的scan方法):  

LOG.info("*******4444************maxResultSize:"+maxResultSize + ";rows:"+rows);
              synchronized(scanner) {
                while (i < rows) {
                  // Stop collecting results if maxScannerResultSize is set and we have exceeded it
                  if ((maxScannerResultSize < Long.MAX_VALUE) &&
                      (currentScanResultSize >= maxResultSize)) {
                	  
                	LOG.info("*************kreak i :"+i);
                    break;
                  }
                  // Collect values to be returned here
                  boolean moreRows = scanner.nextRaw(values);
                  if (!values.isEmpty()) {
                    for (Cell cell : values) {
                      KeyValue kv = KeyValueUtil.ensureKeyValue(cell);
                      LOG.info("*************kv :"+kv +";kv.heapSize():"+kv.heapSize());
                      LOG.info("*************currentScanResultSize :"+currentScanResultSize);
                      currentScanResultSize += kv.heapSize();  totalKvSize += kv.getLength();
                    }
                    results.add(Result.create(values));
                    i++;
                  }
                  if (!moreRows) {
                    break;
                  }
                  values.clear();
                }
              }

大家会看到一些调试代码,也莫见怪了。

大家看“if((maxScannerResultSize < Long.MAX_VALUE) && (currentScanResultSize >= maxResultSize))” 这个条件判断语句,很重要的一个判断是currentScanResultSize >= maxResultSize,而这里的currentScanResultSize,其实是每行所有KeyValue的bytes的统计数,意思是当在Scan对象中设置了maxResultSize后(没设置的话,默认值为HRegionServer的maxScannerResultSize),在HRegionServer中扫描数据的时候,会对所查数据的bytes统计和与这个值做比较,这样的结果是如果maxResultSize比较小,那么本来需要10条数据一次能够查询到的,需要分成多次查询,其maxResultSize的值,并不会影响查询的结果,只会影响scan发起远程调用的次数,这里可能说得有点抽象,我举个例子说明:

在我的HBase数据库中存在记录:row-10,row-11,...,row-19,row-20,row-21,...,row-29,...,row-91,row-92,...,row-99

分别用两种下面三种方式查询,都能得到一样的结果:

keyvalues={row-10/colfam1:col-5/1423054405356/Put/vlen=8/mvcc=0, row-10/colfam2:col-33/1423054405467/Put/vlen=9/mvcc=0}
keyvalues={row-100/colfam1:col-5/1423054437916/Put/vlen=9/mvcc=0, row-100/colfam2:col-33/1423054437979/Put/vlen=10/mvcc=0}
keyvalues={row-11/colfam1:col-5/1423054405753/Put/vlen=8/mvcc=0, row-11/colfam2:col-33/1423054405869/Put/vlen=9/mvcc=0}
keyvalues={row-12/colfam1:col-5/1423054406160/Put/vlen=8/mvcc=0, row-12/colfam2:col-33/1423054406268/Put/vlen=9/mvcc=0}
keyvalues={row-13/colfam1:col-5/1423054406541/Put/vlen=8/mvcc=0, row-13/colfam2:col-33/1423054406646/Put/vlen=9/mvcc=0}
keyvalues={row-14/colfam1:col-5/1423054406937/Put/vlen=8/mvcc=0, row-14/colfam2:col-33/1423054407028/Put/vlen=9/mvcc=0}
keyvalues={row-15/colfam1:col-5/1423054407305/Put/vlen=8/mvcc=0, row-15/colfam2:col-33/1423054407424/Put/vlen=9/mvcc=0}
keyvalues={row-16/colfam1:col-5/1423054407715/Put/vlen=8/mvcc=0, row-16/colfam2:col-33/1423054407813/Put/vlen=9/mvcc=0}
keyvalues={row-17/colfam1:col-5/1423054408084/Put/vlen=8/mvcc=0, row-17/colfam2:col-33/1423054408198/Put/vlen=9/mvcc=0}
keyvalues={row-18/colfam1:col-5/1423054408490/Put/vlen=8/mvcc=0, row-18/colfam2:col-33/1423054408598/Put/vlen=9/mvcc=0}
keyvalues={row-19/colfam1:col-5/1423054408895/Put/vlen=8/mvcc=0, row-19/colfam2:col-33/1423054409007/Put/vlen=9/mvcc=0}
keyvalues={row-2/colfam1:col-5/1423054402056/Put/vlen=7/mvcc=0, row-2/colfam2:col-33/1423054402181/Put/vlen=8/mvcc=0}

方法一:

Scan scan3 = new Scan();
		scan3.setCaching(9);
		scan3.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("col-5"))
				.addColumn(Bytes.toBytes("colfam2"), Bytes.toBytes("col-33"))
				.setStartRow(Bytes.toBytes("row-10")).setStopRow(Bytes.toBytes("row-20"));
		
		ResultScanner scanner3 = table.getScanner(scan3);
		for (Result res : scanner3) {
			System.err.println(res);
		}
		scanner3.close();

方法二:

Scan scan3 = new Scan();
		//scan3.setCaching(9);
		scan3.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("col-5"))
				.addColumn(Bytes.toBytes("colfam2"), Bytes.toBytes("col-33"))
				.setStartRow(Bytes.toBytes("row-10")).setStopRow(Bytes.toBytes("row-20")).setMaxResultSize(5);
		
		ResultScanner scanner3 = table.getScanner(scan3);
		for (Result res : scanner3) {
			System.err.println(res);
		}
		scanner3.close();

方法三:

Scan scan3 = new Scan();
		scan3.setCaching(9);
		scan3.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("col-5"))
				.addColumn(Bytes.toBytes("colfam2"), Bytes.toBytes("col-33"))
				.setStartRow(Bytes.toBytes("row-10")).setStopRow(Bytes.toBytes("row-20")).setMaxResultSize(5);
		
		ResultScanner scanner3 = table.getScanner(scan3);
		for (Result res : scanner3) {
			System.err.println(res);
		}
		scanner3.close();

方法一和方法二的区别,在于方法一中scan设置了caching属性为9,方法二中没设置该属性,但设置了maxResultSize属性,

方法二和方法三的区别,在于方法三在方法二的基础上设置了caching属性为9,

基于上面的例子,做以下几点说明:

1、如果不设置scan的caching属性,本例中要查询row-10到row-20的属性,需要在client发起最少11次的远程访问,从HRegionServer中获取数据,并且每次只查询一条记录。


2、对于maxResultSize,只对一次client的远程访问起作用,如果一次远程调用只取一条数据,这个值的设置没有意义;对于批量数据获取,即Scan设置caching后,这个值会起到限制作用,比如,例子中Scan设置caching为9,同时设置maxResultSize为5,并且事先可以知道每行数据的bytes是112,在这样的条件下,结合HRegionServer中scan方法中的限制代码,即使Scan设置了caching为9,一次远程调用也只能取到一条记录,原因也就是“if ((maxScannerResultSize < Long.MAX_VALUE) &&  (currentScanResultSize >= maxResultSize)) “ 执行这个逻辑检查的时候,被break,跳出循环了。 所以,Scan设置caching为9理想情况下,是能2次远程调用就取到12条记录,但是由于设置了maxResultSize为5,在检查每次远程调用能返回的bytes数的时候,就只能返回一条记录了。

3、方法二和方法三效果完全一样,方法一只需要client发起三次远程调用,便可取到所需数据。

4、maxResultSize的意义:限制每次client从HRegionServer取到的bytes总数,bytes总数通过row的KeyValue计算得出。

© 著作权归作者所有

彭苏云
粉丝 43
博文 204
码字总数 54255
作品 0
广州
高级程序员
私信 提问
SHC:使用 Spark SQL 高效地读写 HBase

Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的...

HBase
04/02
0
0
HBase实战之MOB使用指南

若要启用MOB功能,需要在每个RegionServer进行配置,并在建表或者修改表时对指定列族启用MOB特性。在HBase尝鲜版中启用MOB功能,需要由admin用户设置定期进程,以重新优化MOB数据的分布。 增...

HBase技术社区
2018/10/08
0
0
HBase 二级索引与 Join

二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来探讨如何基于Hbase构建...

红薯
2011/10/18
5.4K
1
2018-08-15期 HBase命令行使用案例

1、进入hbase命令行 [root@hadoop-server01 bin]# hbase shell 2、命令行帮助 COMMAND GROUPS: Group name: general Commands: status, table_help, version, whoami Group name: ddl Comman......

JackmaSong
2018/08/15
0
0
来自58的HBase平台建设避坑指南

HBase是一个基于Hadoop的分布式、面向列的Key-Value存储系统,可以对需要实时读写、随机访问大规模数据集的场景提供高可靠、高性能的服务,在大数据相关领域应用广泛。HBase可以对数据进行透...

何良均、张祥
10/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

视频如何加水印?

很多视频制作者的视频都被他人盗用过,为了防止自己的劳动成果被他人窃取,给视频加水印对于视频制作者来说,是一件非常重要的事情。那么下面分享一个手机给视频加水印的方法,一起来看看吧!...

白米稀饭2019
24分钟前
5
0
004-Envelop-基于Blockstack的文件传输dapp

本篇文章主要介绍基于Blockstack的文件传输工具; ####A-链接地址 官网地址:https://envelop.app/ Github地址:https://github.com/envelop-app ####B-特性: 1: Share private files easil...

Riverzhou
27分钟前
6
0
SpringCloud——声明式调用Feign

Feign声明式调用 一、Feign简介 使用Ribbon和RestTemplate消费服务的时候,有一个最麻烦的点在于,每次都要拼接URL,组织参数,所以有了Feign声明式调用,Feign的首要目标是将Java HTTP客户端...

devils_os
32分钟前
7
0
《JAVA核心知识》学习笔记 (22. 数据结构)

22.1.1. 栈(stack) 栈( stack)是限制插入和删除只能在一个位置上进行的表,该位置是表的末端,叫做栈顶 (top)。它是后进先出(LIFO)的。对栈的基本操作只有 push(进栈)和 pop(出栈...

Shingfi
38分钟前
6
0
你对AJAX认知有多少(1)?

AJAX(一) AJAX技术对于前段或者后端工程师来说,都是必不可缺的 那我们这几期都来细细品味一下AJAX的相关知识,直接上干货喽~ 1、什么是AJAX,为什么要使用Ajax(请谈一下你对Ajax的认识) 什么...

理性思考
46分钟前
14
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部