文档章节

对抗警报疲劳的七个步骤!

OneAPM蓝海讯通
 OneAPM蓝海讯通
发布于 2015/12/11 14:42
字数 1397
阅读 22
收藏 0

警报疲劳是一个棘手的问题,但事不宜迟,越早开始越好。利用警报数据,你可以有效清理监控系统,排除不可操作的警报。

简便起见,我们编写了对抗警报疲劳的七个步骤。

######减少警报疲劳的七个步骤

###1.付诸行动

清理监控系统并不简单,而且人们容易对高级别警报产生麻木感。但是,第一步需要决定如何处理报警。不妨先浏览一下你的报警数据,看下班时间出现了多少警报以及其影响。

接着,团队启动清理警报的工作流程。Etsy 就曾设立过「黑客周」来解决大型监控卫生问题,当然,一周留出几小时或每个月留一天进行清理工作也可以。

###2.删除不可操作的警报并调整阈值

首先回顾最常见的警报(提示:你可以通过 PagerDuty 的 Advanced Reports 深入了解事件)。然后询问最近当值的人员,判断每个警报是否可操作。

一旦发现不可操作的警报,直接删除之。

对 CPU 和内存使用监控和警报非常普遍,因为这些指标会暗示是否存在错误。但是,这些指标无法给出具体的错误信息,所以它们是不可操作的。Etsy 已经放弃监测这些指标,转而专注于排查更具体、可操作的信息。

你可能还需要调整检查的阈值。来自 Exosite 的 Dan Slimmon 曾分享过一个非常不错的谈话 「烟雾警报和汽车警报」,详细介绍了两个医学检测概念如何应用于设置警报问题。这两个概念是敏感性和特异性,将两者结合可得到阳性预测值(PPV)——警报响起时确实存在问题的可能性。该谈话还分享了如何通过滞后(结合考虑当前值与历史值)与其他技术,改进 PPV 的策略。

###3.延迟处理不严重事件

尽管所有警报都很重要,但有些可能并不紧急。所以无需为了后者在半夜将整个团队叫醒。你可以为非严重事件创建单独的工作流程,以保证它们不再打扰你休息或当前的工作。在 PagerDuty 中,可以通过在低严重性服务中禁用「Incident Ack Timeout」和「Incident Auto-Resolution」来设置。

###4.整合相关警报

当故障出现时,你可能会得到指向同一问题的多个警告。你可以根据监测依赖性进行设置,并利用 OneAlert 最佳实践教程来整合警报:

  • 使用 incident key 告知 PagerDuty 哪些事件是相互关联的。例如,如果多台服务器宕机,每台服务器可能都会向 PagerDuty 发出通知。但如果这些通知的 incident key 相同,我们可以将通知整合成一个警告,告诉你30个服务器正处于宕机状态。

  • 警报风暴期间,PagerDuty 会捆绑首个事件之后触发的警报。例如,如果一分钟内有10个事件被触发,在第一个警告后,你只会再收到一个汇总警报。

###5.为警报添加名称和描述

收到警告后,得知某处出现问题,却没有能衡量问题严重程度的信息,也不知该如何处理,这种情况最为糟糕。

  • 给警告添加描述性名称。如果设定一个指标(比如,已使用的磁盘空间),请确保有足够信息使他人了解其意义。磁盘空间达到了80%还是99%?

  • 在警报描述中添加相关的故障排除信息,比如指向现有文档或运行手册的链接,能帮助团队深入挖掘当前事件。在 PagerDuty 中,你可以添加 aclient_url 到事件中,或直接将运行手册链接加到服务描述里。

###6.确保相关人员收到警报

当团队刚开始监控时,他们通常会将所有警报发送给所有人。事实上,没人愿意接收毫无意义的信息,如果你有不同的团队负责不同的架构模块,可以使用 Escalation Policies 调整警报设置。

###7.更新定期审查

为了保证清理工作的效果,你需要每周定期审查这些警报。 Etsy 就定制过有趣的审查流程 「Opsweekly」(点此查看其 Github repo),但也有些公司使用电子表格来定期审查。

为了防止警告疲劳成为常态,可以为待命团队设定量化指标。一旦满足限度,无论是在监测清理过程还是在休息时间,都必须采取处理行动。 PagerDuty 会查看每周的警报数,如果某个待命团队接收的报警数超过15,我们会总结并审查这些警报。

最重要的,是养成警报监控的团队协作精神。如果你收到一个不可操作的警告,即便只有一次,你也有责任确保该警报不会再打扰其他成员。

目前市面上的类似 SaaS 云告警平台有几个,大家可以参考下:国外的 PagerDuty、VictorOps、OpsGenie,国内目前做的比较好的是 OneAlert ,感兴趣的同学可以去免费试用一下!

原文链接:https://www.pagerduty.com/blog/lets-talk-about-alert-fatigue/

© 著作权归作者所有

OneAPM蓝海讯通
粉丝 94
博文 631
码字总数 1266889
作品 0
海淀
私信 提问
AliOS把人脸识别搬上汽车,将带来怎样的想象空间

我们每个人都认识自己的汽车,但是现在AliOS要让汽车能够认识我们,AliOS的工程师已经将人脸识别技术搬上汽车,并在研究车载人脸识别的场景化落地应用。 人脸识别,在手机上已经玩得很溜。在...

技术小能手
2018/06/06
0
0
对抗告警疲劳的8种方法

【编者按】本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 [ITOM][1] 管理平台 [OneAPM][2] 编译呈现。 各司其职、孤军作战非常不利于团队沟通,一...

OneAPM蓝海讯通
2016/06/22
35
0
开始使用 Roland 吧,一款命令行随机选择工具

Roland 可以帮你做出艰难的决定,它是我们在开源工具系列中的第七个工具,将帮助你在 2019 年提高工作效率。 每年年初似乎都有疯狂的冲动想提高工作效率。新年的决心,渴望开启新的一年,当然...

作者: Kevin Sonney
02/04
0
0
关于 vSphere 监控和性能

关于 vSphere 监控和性能 VMware 提供了几个工具,可帮助你监控虚拟环境,并找到潜在问题和当前问题的原因所在。 vSphereClient 中的性能图表:可查看多种系统资源(包括CPU、内存、存储等等...

qazplm59
2018/06/26
0
0
Prometheus 不完全避坑指南

Prometheus 是一个开源监控系统,它本身已经成为了云原生中指标监控的事实标准,几乎所有 Kubernetes 的核心组件以及其它云原生系统都以 Prometheus 的指标格式输出自己的运行时监控信息。我...

Docker
02/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Boot 2 实战:使用 Spring Boot Admin 监控你的应用

1. 前言 生产上对 Web 应用 的监控是十分必要的。我们可以近乎实时来对应用的健康、性能等其他指标进行监控来及时应对一些突发情况。避免一些故障的发生。对于 Spring Boot 应用来说我们可以...

码农小胖哥
41分钟前
4
0
ZetCode 教程翻译计划正式启动 | ApacheCN

原文:ZetCode 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 ApacheCN 学习资源 贡献指南 本项目需要校对,欢迎大家提交 Pull Request。 ...

ApacheCN_飞龙
52分钟前
4
0
CSS定位

CSS定位 relative相对定位 absolute绝对定位 fixed和sticky及zIndex relative相对定位 position特性:css position属性用于指定一个元素在文档中的定位方式。top、right、bottom、left属性则...

studywin
今天
6
0
从零基础到拿到网易Java实习offer,我做对了哪些事

作为一个非科班小白,我在读研期间基本是自学Java,从一开始几乎零基础,只有一点点数据结构和Java方面的基础,到最终获得网易游戏的Java实习offer,我大概用了半年左右的时间。本文将会讲到...

Java技术江湖
昨天
5
0
程序性能checklist

程序性能checklist

Moks角木
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部