加载中
高可用DevHa实践,告诉你生产环境0性能故障是如何做到的!

导读:近日,数列科技 CTO 陆学慧参加 ArchSummit 全球架构师峰会,并进行了题为《0 性能故障是如何做到的:高可用性能领域的 DevHA 实践》的主题演讲,详细介绍了 0 性能故障的实践经验及对...

如何避免这10类常见故障?B站数据库架构设计做了这5步……

# 一分钟精华速览 # 今年3月GitHub在一周内出现了多次服务不可用的情况,每起事件持续时长在 2-5 小时,据有媒体统计,GitHub在一周中多次中断影响的开发者数量高达 7300 万。事后GitHub 高级...

09/22 17:34
3.6K
美图SRE:一次线上大事故,我悟出了故障治理的3步9招

# 一分钟精华速览 # 美图公司旗下产品月活用户达2.409亿,每月平台上大概会产生60亿的照片和视频。这样庞大的用户体量下,美图SRE团队作为公司最稳的大后方,如何尽可能地保障和提升服务的稳...

09/16 16:45
9.4K
阿里云弹性计算SRE实践:亿级调用量下的预警治理六要素

# 一分钟精华速览 # 作为阿里云最大最核心的云产品,阿里云弹性计算(ECS)是阿里巴巴经济体以及其它部署在 ECS 上的云产品的底座,同时也支撑着国内外非常多的业务,其贡献和重要性有目共睹...

09/16 16:42
2K
系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附复盘模板)

# 一分钟精华速览 # 系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是什...

08/26 17:30
68
监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤

是不是经常会遇到,有人在群里 @你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言? 业务方...

08/23 19:58
1.5K
故障复盘后的告警如何加出效果?浙江移动等老司机总结了 6 条注意事项

一分钟精华速览 某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往往需要增加数百上千个监控项,这样加下去,真的能提升业务异常的监控...

08/16 20:56
664
10年稳定性保障经验总结,故障复盘要回答哪三大关键问题?|TakinTalks大咖分享

#一分钟精华速览 # 怎么样做好故障复盘?是否只要把事故要定责到人就能解决问题? 这是很多企业/团队都要面对的问题,有着超10年系统稳定性保障经验的李道兵老师给我们分享了他的观点: 故障...

08/01 13:55
2.3K
B站713故障后的多活容灾建设|TakinTalks大咖分享

作者介绍——B站在线SRE负责人-武安闯 「TakinTalks」稳定性技术交流平台特聘讲师,2016年加入B站,深度参与B站微服务拆分、云原生改造、高可用建设、SRE转型和稳定性 体系落地等项目 ,如O...

「TakinTalks」_ 故障频繁发生,如何做好系统稳定性?

活动时间: 2022年7月16日,14:00-17:00 活动地点:线上直播(infoQ视频号线上直播、B站直播间) 进群方式:扫码添加小树,回复「沙龙」进群 故障专题 “程序员不能被同一原因的故障坑两次”...

07/13 15:33
137
开课报名|「Takin开源特训营」第一期来啦!手把手教你搞定全链路压测!

618又来了,今年的年中大考,你是不是又遇到了稳定性问题? 每年这个时候,总有企业因为大促激增的流量导致系统稳定性出现问题,数十倍的流量涌入系统,总有一些企业因为没有做好事前筹备,最...

06/15 11:28
74
畅聊安全生产,对话B站、唯品会一线专家!|TakinTalks大咖对谈

“安全生产”是业界新兴起的一种概念,来源于传统行业,加强安全生产就是为了防止和减少生产安全事故 ,保障人民群众生命和财产安全,促进经济社会持续健康发展。 随着互联网发展,数字经济在...

05/30 11:27
472
B站S11破亿直播在线稳定性保障秘籍——TakinTalks演讲实录

《英雄联盟》S11全球总决赛·决赛中国战队夺冠,赛事直播盛况空前,观赛人数破亿。B站作为英雄联盟2021全球总决赛直播独家版权方不仅在整个比赛过程中保证了直播整体总体运行的平稳,还抗住了...

05/18 16:41
6.7K
受信通院之邀出席全球信息系统稳定性峰会,数列技术实力再获认可

4月27日,中国信通院主办的首届“全球信息系统稳定性峰会”在北京隆重召开,数列科技作为《信息系统稳定性保障能力建设指南》的主要参编单位受邀出席,并发表了主题演讲。与中国工程院院士廖...

04/28 18:29
31
信通院牵头数列科技参与主编的《信息系统稳定性保障能力建设指南》正式发布

中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(下称《指南》)。数列科技应邀作为主要编写单位,深度参与了《指南》的编写制定;同时,数列提供稳定...

3 步排查,3 步优化,探针性能损耗直降 44%

应用接探针除了安全问题,最担心的就是占用系统性能影响业务正常运转,今天分享一个实际案例告诉大家如何来降低探针的性能损耗。 下表为某用户的2条核心链路在200并发压测下的性能数据对比,...

低版本skywalking与LinkAgent不兼容怎么办?记一次详细的解决过程

我们在github上收到社区用户的问题反馈: 用户原先应用已经接入skywalking,需要再接入数列的LinkAgent时启动会抛java.lang.UnsupportedOperationException,导致应用启动失败。 也就是说在不...

03/18 18:25
1.9K
被动防御→积极防御,系统稳定性保障思路启发

随着数据化和信息化浪潮的深入,系统的架构在不断地演变,实现了从“单线程”到“多线程、多组件”再到“分布式、微服务”的一个跨越。目前国内外中大型企业基本都采用的是分布式系统架构,复...

03/18 18:15
1.5K
低版本skywalking与LinkAgent不兼容怎么办?记一次详细的解决过程

我们在github上收到社区用户的问题反馈: 用户原先应用已经接入skywalking,需要再接入数列的LinkAgent时启动会抛java.lang.UnsupportedOperationException,导致应用启动失败。 也就是说在不...

03/18 18:09
501

没有更多内容

加载失败,请刷新页面

返回顶部
顶部