文档章节

程序员必读: 摸清Hash表的脾性

baishancloud
 baishancloud
发布于 2017/09/07 16:44
字数 2546
阅读 1
收藏 0

作者简介:

张炎泼(XP)

    白山云科技合伙人兼研发副总裁,绰号XP。

张炎泼先生于2016年加入白山云科技,主要负责对象存储研发、数据跨机房分布和修复问题解决等工作。以实现100PB级数据存储为目标,其带领团队完成全网分布存储系统的设计、实现与部署工作,将数据“冷”“热”分离,使冷数据成本压缩至1.2倍冗余度。

张炎泼先生2006年至2015年,曾就职于新浪,负责Cross-IDC PB级云存储服务的架构设计、协作流程制定、代码规范和实施标准制定及大部分功能实现等工作,支持新浪微博、微盘、视频、SAE、音乐、软件下载等新浪内部存储等业务;2015年至2016年,于美团担任高级技术专家,设计了跨机房的百PB对象存储解决方案:设计和实现高并发和高可靠的多副本复制策略,优化Erasure Code降低90%IO开销。

 

软件开发中,一个hash表相当于把n个key随机放入到b个bucket中,以实现n个数据在b个单位空间的存储。

我们发现hash表中存在一些有趣现象:

 

hash表中key的分布规律

 

当hash表中key和bucket数量一样时(n/b=1):

· 37% 的bucket是空的

· 37% 的bucket里只有1个key

· 26% 的bucket里有1个以上的key(hash冲突)

下图直观的展示了当n=b=20时,hash表里每个bucket中key的数量(按照key的数量对bucket做排序):

往往我们对hash表的第一感觉是:如果将key随机放入所有的bucket,bucket中key的数量较为均匀,每个bucket里key数量的期望是1。

而实际上,bucket里key的分布在n较小时非常不均匀;当n增大时,才会逐渐趋于平均。

key的数量对3类bucket数量的影响

下表表示当b不变,n增大时,n/b的值如何影响3类bucket的数量占比(冲突率即含有多于1个key的bucket占比):

更直观一点,我们用下图来展示空bucket率和冲突率随n/b值的变化趋势:

key数量对bucket均匀程度的影响

上面几组数字是当n/b较小时有意义的参考值,但随n/b逐渐增大,空bucket与1个key的bucket数量几乎为0,绝大多数bucket含有多个key。

当n/b超过1(1个bucket允许存储多个key), 我们主要