文档章节

spring boot / cloud (十六) 分布式ID生成服务

wangkang80
 wangkang80
发布于 2017/09/09 13:51
字数 2127
阅读 1178
收藏 41
点赞 3
评论 2

spring boot / cloud (十六) 分布式ID生成服务

在几乎所有的分布式系统或者采用了分库/分表设计的系统中,几乎都会需要生成数据的唯一标识ID的需求,

常规做法,是使用数据库中的自动增长列来做系统主键,但是这样的做法无法保证ID全局唯一.

那么一个分布式ID生成器应该满足那些需求呢 :

  • 全局唯一性

  • 趋势递增

  • 能够融入分库基因

本文将基于snowflake的算法来进行以下的讨论,当然,分布式ID的生成方案有很多,

不过在本文并不会分散开来讨论/比对,因为网上相关的文章实在太多,如果有需要了解的同学,请自行百度.

同时,也不会讨论snowflake算法,同样也是因为网上相关的文章实在太多,如果有需要了解的同学,请自行百度.

本文期望解决什么问题?

先看两段代码:

public void id() {
     Map<Long, Long> map = new HashMap<>();
     int maxCount = 100;
     IdWorker idWorker = new IdWorker(1, 1);
     for (int i = 0; i < maxCount; i++) {
         long id = idWorker.nextId();
         map.put(id, id);
     }
     log.info("{} , {}", maxCount, map.size());
 }

输出为 : 100 , 100

public void id() {
     Map<Long, Long> map = new HashMap<>();
     int maxCount = 100;
     for (int i = 0; i < maxCount; i++) {
         IdWorker idWorker = new IdWorker(1, 1);
         long id = idWorker.nextId();
         map.put(id, id);
     }
     log.info("{} , {}", maxCount, map.size());
 }

输出为 : 100 , 10

这两段代码的区别,相信大家一眼就能看出,但是那为什么会出现这样的情况呢?

了解snowflake的同学也都知道,这个算法是基于时间的,如下组成 :

0 | 时间(41位) | 数据中心ID(5位) | 机器ID(5位) | 序号(12位)

而生成ID的算法逻辑,简单点说,在相同数据中心ID机器ID的情况下,如果时间的毫秒数是一致的,那么就通过递增序列号来保证ID不重复.

也就是说在1毫秒内最大生成的ID个数是二进制12bit的最大值,也就是4096(0-4095)个

那么如果序列号超过了这个最大值,则会将程序阻塞到下一毫秒,然后序列号归零,继续生成ID.

好知道了生成ID的逻辑后,上面两个程序判断的现象也就不难解释了.

程序一 : 没有重复,是因为在整个循环中,ID生成器只实例化过一次,在循环的过程中,能正常的递增序列号,所以不会有重复的ID出现

程序二 : 有重复,是因为ID生成器是在循环中循环实例化的,每次生成ID的时候序列号都是0,但是程序执行很快,得到的时间毫秒数又是一样的,那么,就必然会有重复值了.

所以从以上的程序片段和分析中可以得出一个结论 : 要想snowflake生成全局唯一的ID,那么ID生成器必须也是全局单例的

那申明一个全局静态的ID生成器不就行了?

两个点要主注意一下 :

  • 分布式系统下全局静态变量也是多份的,因为系统可能运行在不同的JVM下,并不能保证变量的全局单例

  • 前面提到了在同一毫秒下,最多只能生成4096个ID,对于那些并发量很大是系统来说,显然是不够的, 那么这个时候就是通过datacenterId和workerId来做区分,这两个ID,分别是5bit,共10bit,最大值是1024(0-1023)个, 在这种情况下,snowflake一毫秒理论上最大能够生成的ID数量是约42W个,这是一个非常大的基数了,理论上能够满足绝大多数系统的并发量

所以得出一个结论 : snowflake可以通过datacenterId和workerId来区分ID的归属(可以是业务线,可以是机房,等等,按需定义)来达到更大的ID生成数量

那么有那些方法来分配atacenterId和workerId呢?

  • 写死 : 正如上面说的一样,单机部署,然后写死两个值

  • 读配置文件 : 将值放在配置中心,应用启动的时候读取,然后初始化

  • 动态分配 : 本文主旨

所以本文主要讨论的是如何动态分配snowflake的datacenterId和workerId,以及如何做到高可用

所以大家先看一下架构图 :

分布式ID-逻辑架构示意

分布式ID-逻辑架构示意

分布式ID-发号流程示意

分布式ID-发号流程示意

相关源码可在本文末尾的配套代码仓库中获得,工程是 : udf-starter-id

架构设计

构建独立的ID生成服务,提供如下服务:

#生成分布式ID(按时间戳区分datacenterId和workerId)
/service/id

#生成分布式ID(按dwId[0-1023])
/service/id/{dwId}

#生成分布式ID(按datacenterId[0-31]和workerId[0-31])
/service/id/{datacenterId}/{workerId}

#批量生成分布式ID(按时间戳区分datacenterId和workerId)
/service/id/batch/{count}

#批量生成分布式ID(按dwId[0-1023])
/service/id/batch/{dwId}/{count}

#批量生成分布式ID(按datacenterId[0-31]和workerId[0-31])
/service/id/batch/{datacenterId}/{workerId}/{count}

融入分库基因

在提供出来的rest服务中,提供了datacenterId和workerId的参数(dwId就是两者的融合,10bit),

总共预留了10个bit的空余来支持分库分表,最大支持1024个节点.

反解析分布式ID

snowflake生成的ID是可以被反解析的,这样更进一步的支持了分库的相关炒作,相关实现如下 :

 Id reverseId = new Id();
reverseId.setSequence((id) & ~(-1L << 12)); // sequence
reverseId.setDwId((id >> (12)) & ~(-1L << (10))); // dwId
reverseId.setWorkerId((id >> 12) & ~(-1L << 5)); // workerId
reverseId.setDatacenterId((id >> 17) & ~(-1L << 5)); // datacenterId
reverseId.setTimestamp((id >> 22) + TWEPOCH); // timestamp
return reverseId;

集群部署 和 懒实例化ID生成器

本方案是可以支持ID生成服务有多个实例,最多1024个,能并且能保证每个实例内,相同datacenterId和workerId的ID生成器只有一个,做到全局单例.

主要是通过redis原子锁的来实现的.详情可看上面的流程图,主要分为本地ID生成跨实例ID生成两种模式 :

本地生成

这种情况比较简单,就是生成ID的请求刚刚落到ID生成器所在的实例上,然后就可以直接拿到ID生成器,然后生成ID.

跨实例ID生成

这种情况简单点说就是,比如你要生成3-3的ID,这个ID生成器在实例A上,但是负载均衡器将请求发到实例B上去了,

这个时候实例B上并没有对应的ID生成器,这个时候,就会从缓存中拿到对应的缓存值,拿到用用这个ID生成器的HOST和PORT,

然后在做一个RMS请求,调用远程的rest服务,生成ID,然后返回

高可用 和 故障转移

上面提到了,ID生成器现在是全网单例的了,那么其中一个节点有故障,挂掉了怎么办呢?

跨实例ID生成的场景下,会有RMS请求失败的情况,远程节点有可能会故障,这个时候,一旦RMS请求失败,则会触发故障转移,

具体操作就是将redis中的对应缓存删除掉,然后走一个实例化ID生成器的流程,这个时候,当前处理请求的节点就会将故障节点拥有的ID生成器转移过来,转为本地生成模式,从而做到的故障转移

性能

如果是本地ID生成的话,那基本没有性能损耗,直接操作本地变量.

跨实例ID生成的情况会多出来一个RMS请求的耗时,但是一次ID生成的请求最多触发一次RMS请求,消耗是可控的

在有节点故障的时候,触发故障转移会额外的产生一次ID实例化的流程,会造成轻微波动,但紧当前的这一次请求,下次的请求就会转为本地ID生成的模式

结束

今天跟大家分享了如何动态分配snowflake的datacenterId和workerId,以及如何做到高可用的设计和思路,环境大家提出意见和建议

代码仓库 (博客配套代码)


想获得最快更新,请关注公众号

想获得最快更新,请关注公众号

© 著作权归作者所有

共有 人打赏支持
wangkang80
粉丝 348
博文 22
码字总数 34117
作品 3
浦东
高级程序员
加载中

评论(2)

wangkang80
wangkang80

引用来自“冷冷gg”的评论

赞~!
回赞!
冷冷gg
冷冷gg
赞~!
【小马哥】Spring Cloud系列讲座

这里为大家推荐一个不错的Spring Cloud系列讲座,讲师介绍如下: 小马哥,阿里巴巴技术专家,从事十余年Java EE 开发,国内微服务技术讲师。目前主要负责微服务技术推广、架构设计、基础设施...

杜琪
03/02
0
0
Spring Cloud与Spring Boot版本匹配关系

Spring Cloud是什么? “Spring Cloud provides tools for developers to quickly build some of the common patterns in distributed systems.” Spring Cloud为开发者提供了一套可以用来快......

颖辉小居
06/27
0
0
【小马哥】Spring Boot系列讲座

这里为大家推荐一个不错的Spring Boot系列讲座,讲师介绍如下: 小马哥,阿里巴巴技术专家,从事十余年Java EE 开发,国内微服务技术讲师。目前主要负责微服务技术推广、架构设计、基础设施、...

杜琪
03/02
0
0
Spring Cloud简介/版本选择/ZooKeeper例子搭建简单说明

一、什么是Spring Cloud 官方的说法就是Spring Cloud 给开发者提供一套按照一定套路快速开发分布式系统的工具。 具体点就是Spring Boot实现的微服务架构开发工具。它为微服务架构中涉及的配置...

easonjim
2017/09/18
0
0
微服务选择Spring Cloud还是Dubbo?

点击关注 异步图书,置顶公众号 每天与你分享 IT好书 技术干货 职场知识 参与文末话题讨论,每日赠送异步图书。 ——异步小编 在阿里巴巴的生态中,微服务逐渐成为主要的服务形态,伴随着容器...

异步社区
04/27
0
0
恒宇少年/spring-boot-chapter

简书整套文档以及源码解析 专题 专题名称 专题描述 001 Spring Boot 核心技术 讲解SpringBoot一些企业级层面的核心组件 002 Spring Cloud 核心技术 对Spring Cloud核心技术全面讲解 003 Quer...

恒宇少年
04/19
0
0
spring-cloud项目学习与实践记录之——服务注册与发现

先简单介绍一下spring cloud简介: 本系列文章的背景:本系列文章是基于本人之前的一个完整的综合站点管理系统,采用新的spring cloud系统进行微服务化的一个演变过程。原系统是一个模块化的...

cavion
07/14
0
0
史上最简单的 SpringCloud 教程 | 第一篇: 服务的注册与发现(Eureka)

一、spring cloud简介spring cloud 为开发人员提供了快速构建分布式系统的一些工具,包括配置管理、服务发现、断路器、路由、微代理、事件总线、全局锁、决策竞选、分布式会话等等。它运行环...

方宏春
04/14
0
0
中小企业对Spring Cloud微服务架构实践经验总结的一些思考!

相关阅读: 毕业10年,阻碍你职业发展的最大“拦路虎”到底是什么? 不能All in的人别去创业公司 互联网技术(java框架、分布式、集群)干货视频大全,不看后悔!(免费下载) 作者:张强 来源:...

互联网架构师
07/01
0
0
【微服务】使用spring cloud搭建微服务框架,整理学习资料

写在前面   使用spring cloud搭建微服务框架,是我最近最主要的工作之一,一开始我使用bubbo加zookeeper制作了一个基于dubbo的微服务框架,然后被架构师否了,架构师曰:此物过时。随即,我...

grootzhang
06/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

对基于深度神经网络的Auto Encoder用于异常检测的一些思考

一、前言 现实中,大部分数据都是无标签的,人和动物多数情况下都是通过无监督学习获取概念,故而无监督学习拥有广阔的业务场景。举几个场景:网络流量是正常流量还是攻击流量、视频中的人的...

冷血狂魔
17分钟前
0
0
并发设计之A系统调用B系统

A-->B A在发送请求之前,用乐观锁,减少对B的重复调用,这样一定程度上是幂等性。 比如A系统支付功能,要调用B系统进行支付操作,但是前端对"支付"按钮不进行控制,即用户会不断多次点击支付...

汉斯-冯-拉特
38分钟前
0
0
HTTP协议通信原理

了解HTTP HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务。 HTTP使用...

寰宇01
今天
0
0
【Java动态性】之反射机制

一、Java反射机制简介

谢余峰
今天
1
0
Centos 6.X 部署环境搭建

1.Linux学习笔记CentOS 6.5(一)--CentOS 6.5安装过程

IT追寻者
今天
0
0
博客即同步至腾讯云+社区声明

我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=8vy9bsmadbko...

xiaoge2016
今天
1
0
大数据教程(3.1):Linux系统搭建网络YUM源服务器

博主在前面的2.5章节讲述了linux系统本地YUM服务器的搭建和httpd轻量级静态网站服务器的安装,本节博主将为大家分享内网环境中搭建自己的网络YUM服务器的全过程。如果大家对本地YUM服务器还不...

em_aaron
今天
1
0
蚂蚁技术专家:一篇文章带你学习分布式事务

小蚂蚁说: 分布式事务是企业集成中的一个技术难点,也是每一个分布式系统架构中都会涉及到的一个东西,特别是在这几年越来越火的微服务架构中,几乎可以说是无法避免,本文就围绕分布式事务...

Java大蜗牛
今天
1
0
新的Steam应用将拓展服务项目

导读 未来几周,Steam将推出两个免费的应用程序Steam Link和Steam Video。这两个应用程序都旨在拓展Steam平台的业务和便利性。 即将开放的Steam Link应用程序最先提供了Android测试版,它将允...

问题终结者
今天
0
0
golang 第三方包的使用总结

golang 第三方包的安装的方法: 1. go get 安装 $ go get github.com/gin-gonic/gin 注意:执行go get 命令需要先安装git命令,并配置git全局变量。 2. 源码包安装 由于国内网络问题,很多时...

科陆李明
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部