一分钟精华速览 在研发和稳定性保障过程中,人与设备、程序、组织的交互是一个复杂的过程,虽然人们极少会恶意犯错,但由于受特定情景下的实际条件影响,人为失误也时有发生,那么,如何尽可...
# 一分钟精华速览 # 混沌工程作为一种提高技术架构弹性能力和容错能力的复杂技术手段,近年来讨论声音不断,相比在分布式系统上进行随机的故障注入实验,基于混沌工程的大规模自动化故障演练...
一分钟精华速览 本篇内容来源于 TakinTalks 稳定性社区「年度专家小会·杭州站」,感谢阿里、腾讯云、飞书、网易、华为、浙江移动、极氪、酷家乐、大搜车、二维火、亲宝宝等等企业 20 余位稳...
# 一分钟精华速览 # 混沌工程是在分布式系统上进行实验,在整个系统中随机位置通过工具引发故障,从而提高系统健壮性以及人员的响应效率,建立对系统抵御生产环境中失控条件的能力以及信心的...
美图崇尚的故障文化是“拥抱故障,卓越运维”,倡导的基准是No-Blame, 即「不指责,重改进」。今年9月TakinTalks社区曾经分享过美图的三段式故障治理方法(美图SRE:一次线上大事故,我悟出...
# 一分钟精华速览 # 美图公司旗下产品月活用户达2.409亿,每月平台上大概会产生60亿的照片和视频。这样庞大的用户体量下,美图SRE团队作为公司最稳的大后方,如何尽可能地保障和提升服务的稳...
# 一分钟精华速览 # 作为阿里云最大最核心的云产品,阿里云弹性计算(ECS)是阿里巴巴经济体以及其它部署在 ECS 上的云产品的底座,同时也支撑着国内外非常多的业务,其贡献和重要性有目共睹...
# 一分钟精华速览 # 系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是什...
是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方...
一分钟精华速览 某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往往需要增加数百上千个监控项,这样加下去,真的能提升业务异常的监控...
#一分钟精华速览 # 怎么样做好故障复盘?是否只要把事故要定责到人就能解决问题? 这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障...
没有更多内容
加载失败,请刷新页面
没有更多内容
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复