加载中
团队新人多,稳定性经验不足,研发质量怎么保障?|TakinTalks论道

一分钟精华速览 在研发和稳定性保障过程中,人与设备、程序、组织的交互是一个复杂的过程,虽然人们极少会恶意犯错,但由于受特定情景下的实际条件影响,人为失误也时有发生,那么,如何尽可...

去哪儿是如何做到大规模故障演练的?|TakinTalks

# 一分钟精华速览 # 混沌工程作为一种提高技术架构弹性能力和容错能力的复杂技术手段,近年来讨论声音不断,相比在分布式系统上进行随机的故障注入实验,基于混沌工程的大规模自动化故障演练...

开发任务都完不成,哪有空搞稳定性?先看看这 13 条建议|TakinTalks 论道

一分钟精华速览 本篇内容来源于 TakinTalks 稳定性社区「年度专家小会·杭州站」,感谢阿里、腾讯云、飞书、网易、华为、浙江移动、极氪、酷家乐、大搜车、二维火、亲宝宝等等企业 20 余位稳...

破坏系统是为了更稳定?混沌工程在去哪儿的4个阶段实践

# 一分钟精华速览 # 混沌工程是在分布式系统上进行实验,在整个系统中随机位置通过工具引发故障,从而提高系统健壮性以及人员的响应效率,建立对系统抵御生产环境中失控条件的能力以及信心的...

故障复盘究竟怎么做?美图SRE结合10年经验做了三大总结(附模板)

美图崇尚的故障文化是“拥抱故障,卓越运维”,倡导的基准是No-Blame, 即「不指责,重改进」。今年9月TakinTalks社区曾经分享过美图的三段式故障治理方法(美图SRE:一次线上大事故,我悟出...

如何避免这10类常见故障?B站数据库架构设计做了这5步……

# 一分钟精华速览 # 今年3月GitHub在一周内出现了多次服务不可用的情况,每起事件持续时长在 2-5 小时,据有媒体统计,GitHub在一周中多次中断影响的开发者数量高达 7300 万。事后GitHub 高级...

美图SRE:一次线上大事故,我悟出了故障治理的3步9招

# 一分钟精华速览 # 美图公司旗下产品月活用户达2.409亿,每月平台上大概会产生60亿的照片和视频。这样庞大的用户体量下,美图SRE团队作为公司最稳的大后方,如何尽可能地保障和提升服务的稳...

阿里云弹性计算SRE实践:亿级调用量下的预警治理六要素

# 一分钟精华速览 # 作为阿里云最大最核心的云产品,阿里云弹性计算(ECS)是阿里巴巴经济体以及其它部署在 ECS 上的云产品的底座,同时也支撑着国内外非常多的业务,其贡献和重要性有目共睹...

系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附复盘模板)

# 一分钟精华速览 # 系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是什...

监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤

是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方...

故障复盘后的告警如何加出效果?浙江移动等老司机总结了 6 条注意事项

一分钟精华速览 某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往往需要增加数百上千个监控项,这样加下去,真的能提升业务异常的监控...

10年稳定性保障经验总结,故障复盘要回答哪三大关键问题?|TakinTalks大咖分享

#一分钟精华速览 # 怎么样做好故障复盘?是否只要把事故要定责到人就能解决问题? 这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障...

B站713故障后的多活容灾建设|TakinTalks大咖分享

作者介绍——B站在线SRE负责人-武安闯 「TakinTalks」稳定性技术交流平台特聘讲师,2016年加入B站,深度参与B站微服务拆分、云原生改造、高可用建设、SRE转型和稳定性 体系落地等项目 ,如O...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部