文档章节

稳定性「三十六计」- 配额管控

o
 osc_gu9d45li
发布于 2019/04/08 09:55
字数 988
阅读 31
收藏 0

精选30+云产品,助力企业轻松上云!>>>

背景

《SRE Google运维解密》里提到SRE自动化系统的一个bug导致几乎所有的数据中心机器被成功下线并进行硬盘擦除。当然这本书出版之后又业界也进行了很多的演进。在我们团队现在很难发生这样的事情。因为团队内人人要遵循的一个设计原则是:原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。

这个原则在我以后会发布的系列文章《架构设计「三大纪律八项注意」》中也会介绍一些。今天先从另一个角度系统的看这个问题。

 

配额管控策略-逻辑管控

我所在的HULK调度系统团队因为从大的方面将调度系统分成资源和调度两个方面,所以衍生出来就有物理和逻辑两个层次。在运用方面可以用一个简单的例子来解释:秒杀。

在秒杀场景中,假设实际物品库存有10件。这是一个物理概念,被别人订走一个少一个。但是秒杀开始的时候,有100个请求过来,每个人都不知道下一时刻库存有多少。这时候实时感知物理上有多少库存来给用户反馈显然是不合适的。这时候就衍生出来逻辑的概念。

这个逻辑的库存可以用一个计数器来实现,或者是漏斗,不重要。关键是逻辑库存要卡住流程,不能让物理库存为负数。

在我们HULK调度系统中,涉及到硬件资源,一个策略是为应急场景留下一定配额。对于不同的来源的请求给予不同的配额以避免一个来源方未知问题导致所有的资源耗尽。

总结一下上面提到的策略:物理感知是必要的,但是不能代替逻辑管控。逻辑管控包括:不能让资源总量低于实际;必要时留有配额;针对不同来源需要不同的配比。

 

配额管控策略-批量管控

「核心流程都需要是点对点的。保障流程原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。」这是我们团队的一个重要的设计原则。

举个我们团队的具体应用:是人都是要死的,是机器都是要坏的。机器故障既然不可避免,那就需要进行自动化处理。HULK调度系统这边有专门的物理机宕机流程。这个流程在设计中做了下面两件事情:1是限量,2是限速。

限量:

按照物理机宕机率统计数据来看,一天理论上不可能有100台物理机同时宕机。如果1天中宕机数超过一定配额,则停止自动化宕机处理,并发出异常报警。

限速:

如果1秒中100台机器同时宕机,更可能发生的事情是网络抖动之类的其他现象。而非真宕机,所以此时也会停止自动化宕机处理,并发出异常报警。

 

总结

与用户一同工作,以像用户一样思考  --《程序员修炼之道》

 

相关阅读

编写代码的「八荣八耻」(上篇)

编写代码的「八荣八耻」- 以开关上线为荣,以自信编码为耻

《程序员修炼之道》解读

Elasticsearch的基本概念和指标

程序常用的设计技巧

到底多大才算高并发?

美团分布式服务通信框架及服务治理系统OCTO

学会用数据说话-分布式锁究竟可以多少并发?

大话高可用

 

o
粉丝 0
博文 500
码字总数 0
作品 0
私信 提问
加载中
请先登录后再评论。
稳定性「三十六计」实战和背后的逻辑

背景 不同于《编写代码的「八荣八耻」》,《稳定性「三十六计」》是应用于设计阶段的非手脚架方式的标准化。 在实际工作中,通常会提倡给新人机会,让他们自己去设计系统。这时候如果没有一种...

osc_wa6zijqd
2019/04/18
9
0
设置默认的超时和重试是一个基础设施的基本素养

What 本篇应该是稳定性「三十六计」系列的一篇:超时重试。但是「设置默认的超时和重试是一个基础设施的基本素养」这句话我在我们组内三次开会的时候都说了。表达了我的一个理念。 Why 为什么...

osc_wa6zijqd
04/16
2
0
稳定性「三十六计」- 无状态化

背景 随着容器化、云原生等的流行,DevOps团队也在不断鼓吹「以无状态为荣,以有状态为耻」。因为有状态的服务难以部署、难以扩展。下面我举几个自己工作中实际的例子。 实例1-依赖系统目录结...

osc_gd4rlfym
2019/04/17
1
0
「前任的50种死法」开发踩坑案例--慢就是错

背景 《50 ways to say goodbye》中文名《前任的50种死法》是我之前报的英语班里外教老师放给我们听的歌。老外说很困惑为什么我们还在听《Take me home,Country Road》这种老掉牙的歌。 《前...

osc_gu9d45li
2019/04/09
2
0
用GaussDB合理管控数据资源的几点心得

一、摘要 项目交付中可能会遇到同时包含核心交易(OLTP)和报表分析(OLAP)的混合业务场景,其中报表分析类业务复杂度高,消耗大量系统资源,但实时性要求较低,而核心交易类业务并发较大,...

华为云开发者社区
06/22
1.9K
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊rocketmq-client-go的TraceInterceptor

序 本文主要研究一下rocketmq-client-go的TraceInterceptor TraceInterceptor rocketmq-client-go-v2.0.0/producer/interceptor.go // WithTrace support rocketmq trace: https://github.c......

go4it
22分钟前
0
0
如何在Android文本视图周围添加边框? - How do I put a border around an Android textview?

问题: 是否可以在textview周围绘制边框? 解决方案: 参考一: https://stackoom.com/question/EfXR/如何在Android文本视图周围添加边框 参考二: https://oldbug.net/q/EfXR/How-do-I-put...

法国红酒甜
36分钟前
10
0
设计模式(4) 建造者模式

什么是建造者模式 经典建造者模式的优缺点 对建造者模式的扩展 什么是建造者模式 建造者模式将一个复杂的对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。创建者模式隐藏了...

zhixin9001
49分钟前
14
0
ArrayList源码分析 —— JDK8

ArrayList的特性 ArrayList内部使用数据作为存储结构,ArrayList可以理解为数组的扩展对象,封装了常用的和非常用的操作数组的方法。以及当数组长度不足以保存数组时,自动扩容数组,通常Arr...

XuePeng77
56分钟前
42
0
__slots__的用法? - Usage of __slots__?

问题: Python中__slots__的目的是什么-尤其是关于何时以及何时不使用它的目的? 解决方案: 参考一: https://stackoom.com/question/1ymu/slots-的用法 参考二: https://oldbug.net/q/1ym...

富含淀粉
今天
17
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部