文档章节

程序员必读: 摸清Hash表的脾性

baishancloud
 baishancloud
发布于 2017/09/07 16:44
字数 2546
阅读 1
收藏 0
点赞 0
评论 0

作者简介:

张炎泼(XP)

    白山云科技合伙人兼研发副总裁,绰号XP。

张炎泼先生于2016年加入白山云科技,主要负责对象存储研发、数据跨机房分布和修复问题解决等工作。以实现100PB级数据存储为目标,其带领团队完成全网分布存储系统的设计、实现与部署工作,将数据“冷”“热”分离,使冷数据成本压缩至1.2倍冗余度。

张炎泼先生2006年至2015年,曾就职于新浪,负责Cross-IDC PB级云存储服务的架构设计、协作流程制定、代码规范和实施标准制定及大部分功能实现等工作,支持新浪微博、微盘、视频、SAE、音乐、软件下载等新浪内部存储等业务;2015年至2016年,于美团担任高级技术专家,设计了跨机房的百PB对象存储解决方案:设计和实现高并发和高可靠的多副本复制策略,优化Erasure Code降低90%IO开销。

 

软件开发中,一个hash表相当于把n个key随机放入到b个bucket中,以实现n个数据在b个单位空间的存储。

我们发现hash表中存在一些有趣现象:

 

hash表中key的分布规律

 

当hash表中key和bucket数量一样时(n/b=1):

· 37% 的bucket是空的

· 37% 的bucket里只有1个key

· 26% 的bucket里有1个以上的key(hash冲突)

下图直观的展示了当n=b=20时,hash表里每个bucket中key的数量(按照key的数量对bucket做排序):

往往我们对hash表的第一感觉是:如果将key随机放入所有的bucket,bucket中key的数量较为均匀,每个bucket里key数量的期望是1。

而实际上,bucket里key的分布在n较小时非常不均匀;当n增大时,才会逐渐趋于平均。

key的数量对3类bucket数量的影响

下表表示当b不变,n增大时,n/b的值如何影响3类bucket的数量占比(冲突率即含有多于1个key的bucket占比):

更直观一点,我们用下图来展示空bucket率和冲突率随n/b值的变化趋势:

key数量对bucket均匀程度的影响

上面几组数字是当n/b较小时有意义的参考值,但随n/b逐渐增大,空bucket与1个key的bucket数量几乎为0,绝大多数bucket含有多个key。

当n/b超过1(1个bucket允许存储多个key), 我们主要观察的对象就转变成bucket里key数量的分布规律。

下表表示当n/b较大,每个bucket里key的数量趋于均匀时,不均匀的程度是多少。

为了描述这种不均匀的程度,我们使用bucket中key数量的最大值和最小值之间的比例((most-fewest)/most)来表示。

下表列出了b=100时,随n增大,key的分布情况。

可以看出,随着bucket里key平均数量的增加,其分布的不均匀程度也逐渐降低。

和空bucket或1个key的bucket的占比不同,均匀程度不仅取决于n/b的值,也受b值的影响,后面会提到。

未使用统计中常用的均方差法去描述key分布的不均匀程度,是因为软件开发过程中,更多时候要考虑最坏情况下所需准备的内存等资源。

 

Load Factor:n/b<0.75

 

hash表中常用一个概念 load factor α=n/b,来描述hash表的特征。

通常,基于内存存储的hash表,它的 n/b ≤0.75。这样设定,既可节省空间,也可以保持key的冲突率相对较低,低冲突率意味着低频率的hash重定位,hash表的插入会更快。

线性探测是一个经常被使用的解决插入时hash冲突的算法,它在1个bucket出现冲突时,按照逐步增加的步长顺序向后查看这个bucket后面的bucket,直到找到1个空bucket。因此它对hash的冲突非常敏感。

在n/b=0.75 这个场景中,如果不使用线性探测(譬如使用bucket内的链表来保存多个key),大约有47% 的bucket是空的;如果使用线性探测,这47%的bucket中,大约一半的bucket会被线性探测填充。

在很多内存hash表的实现中,选择n/b<=0.75作为hash表的容量上限,不仅是考虑到冲突率随n/b增大而增大,更重要的是线性探测的效率会随着n/b的增大而迅速降低。

hash表特性小贴士:

· hash表本身是一个通过一定的空间浪费来换取效率的算法。低时间开销(O(1))、低空间浪费、低冲突率,三者不可同时兼得;

· hash表只适合纯内存数据结构的存储:

° hash表通过空间浪费换取了访问速度的提升;磁盘的空间浪费是无法忍受的,但对内存的少许浪费是可接受的;

° hash表只适合随机访问快的存储介质。硬盘上的数据存储更多使用btree或其他有序的数据结构。

· 多数高级语言(内建hash table、hash set等)都保持 n/b≤0.75;

· hash表在n/b较小时,不会均匀分配key。

 

Load Factor:n/b>1

 

另外一种hash表的实现,专门用来存储比较多的key,当 n/b>1时,线性探测失效(没有足够的bucket存储每个key)。这时1个bucket里不仅存储1个key,一般在一个bucket内用chaining,将所有落在这个bucket的key用链表连接起来,来解决冲突时多个key的存储。

链表只在n/b不是很大时适用。因为链表的查找需要O(n)的时间开销,对于非常大的n/b,有时会用tree替代链表来管理bucket内的key。

n/b值较大的使用场景之一是:将一个网站的用户随机分配到多个不同的web-server上,这时每个web-server可以服务多个用户。多数情况下,我们都希望这种分配能尽可能均匀,从而有效利用每个web-server资源。

这就要求我们关注hash的均匀程度。因此,接下来要讨论的是,假定hash函数完全随机的,均匀程度根据n和b如何变化。

n/b 越大,key的分布越均匀

当 n/b 足够大时,空bucket率趋近于0,且每个bucket中key的数量趋于平均。每个bucket中key数量的期望是:

avg=n/b

定义一个bucket平均key的数量是100%:bucket中key的数量刚好是n/b,下图分别模拟了 b=20,n/b分别为 10、100、1000时,bucket中key的数量分布。

可以看出,当 n/b 增大时,bucket中key数量的最大值与最小值差距在逐渐缩小。下表列出了随b和n/b增大,key分布的均匀程度的变化:

结论:

 

计算

 

上述大部分结果来自于程序模拟,现在我们来解决从数学上如何计算这些数值。

空bucket 数量

对于1个key, 它不在某个特定的bucket的概率是 (b−1)/b

所有key都不在某个特定的bucket的概率是( (b−1)/b)n

已知:

空bucket率是:

空bucket数量为:

有1个key的bucket数量

n个key中,每个key有1/b的概率落到某个特定的bucket里,其他key以1-(1/b)的概率不落在这个bucket里,因此,对某个特定的bucket,刚好有1个key的概率是:

刚好有1个key的bucket数量为:

多个key的bucket

剩下即为含多个key的bucket数量:

key在bucket中分布的均匀程度

类似的,1个bucket中刚好有i个key的概率是:n个key中任选i个,并都以1/b的概率落在这个bucket里,其他n-i个key都以1-1/b的概率不落在这个bucket里,即:

这就是著名的二项式分布。

我们可通过二项式分布估计bucket中key数量的最大值与最小值。

通过正态分布来近似

当 n, b 都很大时,二项式分布可以用正态分布来近似估计key分布的均匀性:

 p=1/b,1个bucket中刚好有i个key的概率为:

1个bucket中key数量不多于x的概率是:

所以, 所有不多于x个key的bucket数量是:

bucket中key数量的最小值,可以这样估算: 如果不多于x个key的bucket数量是1,那么这唯一1个bucket就是最少key的bucket。我们只要找到1个最小的x,让包含不多于x个key的bucket总数为1, 这个x就是bucket中key数量的最小值。

计算key数量的最小值 x

一个bucket里包含不多于x个key的概率是:

Φ(x) 是正态分布的累计分布函数,当x-μ趋近于0时,可以使用以下方式来近似:

这个函数的计算较难,但只是要找到x,我们可以在[0~μ]的范围内逆向遍历x,以找到一个x 使得包含不多于x个key的bucket期望数量是1。

x可以认为这个x就是bucket里key数量的最小值,而这个hash表中,不均匀的程度可以用key数量最大值与最小值的差异来描述: 因为正态分布是对称的,所以key数量的最大值可以用 μ + (μ-x) 来表示。最终,bucket中key数量最大值与最小值的比例就是:

(μ是均值n/b)

程序模拟

以下python脚本模拟了key在bucket中分布的情况,同时可以作为对比,验证上述计算结果。

 

 

© 著作权归作者所有

共有 人打赏支持
baishancloud
粉丝 3
博文 5
码字总数 23490
作品 0
每个程序员都必读的10篇文章

作为一名Java程序员和软件开发人员,那些每个程序员都应该知道的XXX的文章教会了我不少东西,它们提供了某个特定领域的一些实用的并且有深度的信息,这些东西通常很难找到。在我学习的过程中...

mingxun ⋅ 2014/05/15 ⋅ 1

程序员必读Java9新特性示例(上)

明天又要上班了,又想到昨天看的最新一期的《极限挑战》。感慨时光还是转瞬即逝的。依稀记得刚入行的时候,JDK的版本还停留在Java 6。转眼现在已经到Java9了。既然是自己的职业,想必大家都有...

cnJason ⋅ 2017/11/08 ⋅ 0

「mysql优化专题」90%程序员面试都用得上的索引优化手册(5)【面试重点】

本专题讲到索引查询优化,恭喜你,已经达到mysql优化的中级水平。这篇我们要讲的是mysql优化中重点中的重点——索引优化。面试官百分百必问 目录 多关于索引,分为以下几点来讲解: 一、索引...

java进阶架构师 ⋅ 2017/12/03 ⋅ 0

AI + 零售如何共舞?知己知彼,方能走得长久

     “赶时髦”这件事,零售行业一直很拿手。   作为对新技术触觉最为灵敏的领域之一,零售行业会根据市场的迭代做出快速选择。无论是 POS 机、条形码、 O2O ,还是目前火爆的 AI ,对...

深度学习 ⋅ 06/01 ⋅ 0

面试必问之HashMap VS HashTable

HashMap和HashTable有什么不同?在面试和被面试的过程中,我问过也被问过这个问题,也见过了不少回答,今天决定写一写自己心目中的理想答案。 JDK每一版本都在改进。本文讨论的HashMap和Has...

茶轴的青春 ⋅ 03/26 ⋅ 0

Java工程师看过来:入门到高级书单都在这!

关于程序员,除了做项目来提高自身的技术,还有一种提升自己的专业技能就是,多!看!书!Java程序员你们准备好了吗?我们大圣众包(www.dashengzb.cn)双手奉上Java程序员必读之热门书单。 入...

大圣众包 ⋅ 2017/01/18 ⋅ 0

oracle表连接方式对比实例

在Oracle中,确定连接操作类型是执行计划生成的重要方面。各种连接操作类型代表着不同的连接操作算法,不同的连接操作类型也适应于不同的数据量和数据分布情况。 无论是Nest Loop Join(嵌套...

mrliuze ⋅ 2016/01/26 ⋅ 0

清算/报表/日终跑批程序之性能优化案例(一)

前言 不知不觉,技术人生系列·我和数据中心的故事来到了第五期。小y又和大家见面了! 前几期主要发了一些TroubleShooting的案例分享,其实小y最擅长的是性能优化,所以从这期开始,小y会陆续...

DBA小y ⋅ 2017/07/21 ⋅ 0

一名3年工作经验的Java程序员应该具备的技能

一名3年工作经验的Java程序员应该具备的技能,这可能是Java程序员们比较关心的内容。我这里要说明一下,以下列举的内容不是都要会的东西—-但是如果你掌握得越多,最终能得到的评价、拿到的薪...

JackFace ⋅ 2016/08/08 ⋅ 0

fbf的书单,欢迎分享,欢迎更新

本人看过的以下书值得推荐的,列出来的就是值得推荐的 这个颜色是一般推荐 这个颜色是强烈推荐 这个颜色是神作,收藏吧 物联网:生产力的变革 李虹著 开拓视野,一般 源码中国:全球IT外包新原...

fbf ⋅ 2015/03/16 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Centos7重置Mysql 8.0.1 root 密码

问题产生背景: 安装完 最新版的 mysql8.0.1后忘记了密码,向重置root密码;找了网上好多资料都不尽相同,根据自己的问题总结如下: 第一步:修改配置文件免密码登录mysql vim /etc/my.cnf 1...

豆花饭烧土豆 ⋅ 58分钟前 ⋅ 0

熊掌号收录比例对于网站原创数据排名的影响[图]

从去年下半年开始,我在写博客了,因为我觉得业余写写博客也还是很不错的,但是从2017年下半年开始,百度已经推出了原创保护功能和熊掌号平台,为此,我也提交了不少以前的老数据,而这些历史...

原创小博客 ⋅ 今天 ⋅ 0

LVM讲解、磁盘故障小案例

LVM LVM就是动态卷管理,可以将多个硬盘和硬盘分区做成一个逻辑卷,并把这个逻辑卷作为一个整体来统一管理,动态对分区进行扩缩空间大小,安全快捷方便管理。 1.新建分区,更改类型为8e 即L...

蛋黄Yolks ⋅ 今天 ⋅ 0

Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负...

p柯西 ⋅ 今天 ⋅ 0

uWSGI + Django @ Ubuntu

创建 Django App Project 创建后, 可以看到路径下有一个wsgi.py的问题 uWSGI运行 直接命令行运行 利用如下命令, 可直接访问 uwsgi --http :8080 --wsgi-file dj/wsgi.py 配置文件 & 运行 [u...

袁祾 ⋅ 今天 ⋅ 0

JVM堆的理解

在JVM中,我们经常提到的就是堆了,堆确实很重要,其实,除了堆之外,还有几个重要的模块,看下图: 大 多数情况下,我们并不需要关心JVM的底层,但是如果了解它的话,对于我们系统调优是非常...

不羁之后 ⋅ 昨天 ⋅ 0

推荐:并发情况下:Java HashMap 形成死循环的原因

在淘宝内网里看到同事发了贴说了一个CPU被100%的线上故障,并且这个事发生了很多次,原因是在Java语言在并发情况下使用HashMap造成Race Condition,从而导致死循环。这个事情我4、5年前也经历...

码代码的小司机 ⋅ 昨天 ⋅ 2

聊聊spring cloud gateway的RetryGatewayFilter

序 本文主要研究一下spring cloud gateway的RetryGatewayFilter GatewayAutoConfiguration spring-cloud-gateway-core-2.0.0.RC2-sources.jar!/org/springframework/cloud/gateway/config/G......

go4it ⋅ 昨天 ⋅ 0

创建新用户和授予MySQL中的权限教程

导读 MySQL是一个开源数据库管理软件,可帮助用户存储,组织和以后检索数据。 它有多种选项来授予特定用户在表和数据库中的细微的权限 - 本教程将简要介绍一些选项。 如何创建新用户 在MySQL...

问题终结者 ⋅ 昨天 ⋅ 0

android -------- 颜色的半透明效果配置

最近有朋友问我 Android 背景颜色的半透明效果配置,我网上看资料,总结了一下, 开发中也是常常遇到的,所以来写篇博客 常用的颜色值格式有: RGB ARGB RRGGBB AARRGGBB 这4种 透明度 透明度...

切切歆语 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部