文档章节

hbase时间戳修改带来的问题总结

小叮当_加V
 小叮当_加V
发布于 2016/09/22 12:07
字数 1006
阅读 1497
收藏 0

公司业务:数据录入的时候,同一时刻,一条数据的某个字段存在多版本情况。
根据资料,hbase 插入数据的时候可以手动设置时间戳,这样把多个版本的时间戳区别开,但是发现hbase数据不能删除。

经过分析,这是由于:插入数据时候,人为设定的时间戳大于,删除的时间戳。 当client端系统时间大于集群系统时间,就会可能出现这种情况。

作结,hbase java代码部署的client服务器,最好和集群hbase服务器时间做同步,就会避免以上问题。

 

大家知道,像OB,HBase这种存储系统,插入数据的时候,一般数据上都会有一个时间戳(ts)。

Hbase有一个TTL(time to live),可以标识数据的有效期,比如,可以把TTL设置成86400*1000,也就是说数据将于1天后过期。这是一个表级的设置,必须在建表时指定。

但是如果说你需要存储某一天内的数据,到第二天0点失效。这种情况TTL是没法控制的,因为TTL只能控制数据在一段时间后失效,而不能控制在特定的时间点失效。

TTL的本质是通过对比数据的ts,与当前系统时间,然后确定是否应该失效,于是,我们可以通过ts来hack一下。

假设数据的TTL是1天,如果我在凌晨1点插入数据,那么正常情况,它会到第二天凌晨1点失效。实际上就是判断:currentMilliseconds - ts > 86400*1000,如果满足,数据就失效了。

这时如果要控制数据在第二天0点就失效,我们把插入数据的ts往后推一小时就可以了,它就会提前失效。

 

这个方案理论上看起来没有问题,但是如果你的表涉及到删除数据,那么,坑就来了。

 

HBase普通的操作,都会写入WAL(Write ahead log),累积到一定数量后(或者根据时间),根据操作的ts,进行merge,然后对真实的数据做commit,这个跟数据库的log是有点类似的。

 

这里面隐含的一点是,hbase中的操作,是需要ts比当前数据中的ts大,操作才会有效,否则就无效(正常的都是这样的,因为时间是不断变大的嘛)。

 

比如当前有2个操作:

put 'key', 'value', ts=1

put 'key', 'value', ts=2

那么经过合并后,实际上只会有一个操作:

put 'key', 'value', ts=2(因为这个时间戳比较大嘛)

 

接着来,如果有3个操作:

put 'key', 'value', ts=1

put 'key', 'value', ts=2

del 'key', 'value', ts=3

那么,合并后,就只有delete的操作了。

坑就在这里,因为我们是手动设置插入数据的ts的。这就意味着,如果要删除数据,那必须要将删除操作的ts设置得比原来的数据的ts要大(在我们的情况中,两个时间都是未来)。

 

如果删除操作,使用了系统默认的ts,那么造成的结果是:数据无法被删除。

 

OK,那我们就知道,会将删除的ts设大。可是这时,如果你再插入数据,就必须将插入数据的ts设置得比删除操作的ts还要大。。。其实就是,对同一个cell的操作,要想你的操作有效,你必须将它的ts设置为比当前操作序列中最大的还要大。。。

 

然后,如果一不小心,你想当然地把删除的ts设置成了Long.MAX_VALUE,你就会发现,你永远也插入不了数据了。。。。(其实不是永远啦,要到下一次major compact)。

 

最后的总结:谨慎修改数据的ts。。。

最后参考一个博客,很实用:http://zjushch.iteye.com/blog/1243522

© 著作权归作者所有

小叮当_加V
粉丝 6
博文 98
码字总数 19908
作品 0
东城
私信 提问
关于Hbase多版本存储的一个注意点

我们知道hbase是一个多版本的管理系统,在0.96的版本之前默认每个列是3个version,在hbase 0.96之后每个列是1个version,所谓的version其实就是同一条数据插入不同的时间戳来实现的,在hbase...

u010454030
2018/04/19
0
0
一文让您全面了解清楚HBase数据库的所有知识点,值得收藏!

欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! 一、HBase基本概念:列式数据...

李金泽
2018/03/04
0
0
HBase原理深入解析(一)----HBase架构总览

前言:掌握Hbase的重要性不言而喻,掌握Hbase的设计原理更是重中之重。本文是对HBase原理进行讲解系列文章的开篇,本文尽量详细的从整体上介绍HBase的架构,并对每个部分的名词进行初步解释,...

小北觅
2018/08/26
0
0
Hbase访问方式之Hbase shell

Hbase的访问方式 1、Native Java API:最常规和高效的访问方式; 2、HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用; 3、Thrift Gateway:利用Thrift序列化技术,支持C...

dragon_tech
03/06
34
0
一文读懂分布式数据库Hbase

一、 1、什么是Hbase。 是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。 适合于存储非结构化数据,基于列的而不是基于行的模式 如图:Hadoop生态中HBase与其他部分的...

hblt-j
2018/07/26
43
0

没有更多内容

加载失败,请刷新页面

加载更多

如何使用soapUI模拟webservice客户端发送请求

参考资料 https://jingyan.baidu.com/article/cbcede0712849a02f40b4d88.html 左边是请求参数,可以自己填写!按着那个绿色三角箭头可以模拟发送请求,右边是返回的报文 soapui如何发送xml格...

故久呵呵
37分钟前
5
0
Java Security 介绍

1.介绍 Java平台设计的重点是安全性。在其核心,java语言本身是类型安全的并且提供了垃圾自动回收,这使其增加了应用程序代码的健壮性。安全的类加载以及验证机制确保了只有合法的代码才能够...

lixiaobao
42分钟前
5
0
Niushop开源商城系统-分销商管理

分销商管理 1.分销员的招募与管理 如何申请成为分销员? 在wap端个人中心满足之前设置的升级条件,可以申请分销员 开启分销商审核,需要在后台分销商管理——》待审核处进行审核通过。 通过完...

niushop-芳
43分钟前
5
0
为什么大公司一定要使用 DevOps?

究竟什么是DevOps? 要想回答这个问题,首先要明确DevOps这个过程参与的人员是谁,即开发团队和IT运维团队。那么,DevOps的意图是什么呢?即在两个团队之间,建立良好的沟通和协作,更快更可靠...

cs平台
45分钟前
5
0
高危预警|RDP漏洞或引发大规模蠕虫爆发,用户可用阿里云免费检测服务自检,建议尽快修复

2019年9月6日,阿里云应急响应中心监测到Metasploit-framework官方在GitHub空间公开了针对Windows远程桌面服务远程命令执行漏洞(CVE-2019-0708)的利用代码。利用该代码,无需用户交互操作,即...

Mr_zebra
50分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部