HBase1.2.3架构剖析(五) 之 批量装载

原创
2017/02/24 09:26
阅读数 98

1  批量装载(Bulk Loading)

        HBase 有好几种方法将数据装载到表。最直接的方式即可以通过MapReduce任务,也可以通过普通客户端API。但是这都不是高效方法。

        批量装载特性采用 MapReduce 任务,将表数据输出为HBase的内部数据格式,然后可以将产生的存储文件直接装载到运行的集群中。批量装载比简单使用 HBase API 消耗更少的CPU和网络资源。

装载过程包含两个主要步骤:

1.1   通过mapreduce任务准备数据

        批量装载第一步,从MapReduce任务通过HFileOutputFormat2产生HBase数据文件(StoreFiles) 。输出数据为HBase的内部数据格式,以便随后装载到集群更高效。

        为了处理高效, HFileOutputFormat2必须为每个输出的HFile配置在一个region内。为了做到这一点,输出将被批量装载到HBase的任务中,使用Hadoop 的TotalOrderPartitioner类可以划分key的范围。

        HFileOutputFormat2包括一个很方便的函数configureIncrementalLoad(), 可以基于一个表当前的region边界自动设置TotalOrderPartitioner。

1.2   完成数据装载

        导入数据已经准备好,可以使用importtsv工具选择“importtsv.bulk.output”选项或者用HFileOutputFormat的MapReduce job。Completebulkload工具用于导入到运行中的集群。这个命令行工具遍历所准备好的数据文件,并确定文件属于哪个region,然后找到合适的RegionServer接收HFile,将它移动到它的存储目录中,把数据提供给客户端。

        如果region范围在批量装载准备期间或者在准备和完成之间发生了变化,Completebulkload将自动拆分数据文件到新的region。这个过程不是最佳的,所以用户应该小心以尽量减少较大的容量负载并导入集群的延迟,特别是客户端通过其他方式同时加载数据。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部