加载中
告警信息大爆炸,运维解放秘籍!

信息大爆炸的时代,互联网企业的运维人员每天都要处理成千上万的信息。如何处理这种纷繁复杂的情况?面对各种运维事件,想获得足够的告警信息,单一的监控系统往往是不够的。而告警的问题若得...

2015/12/03 17:50
67
有效运维的 on-call 机制

[编者按]本文作者为陈伯龙,云告警平台OneAlert创始人,著《云计算与OpenStack》,在IT运营管理、云计算方面从业10多年。

企业处理事件风暴的 2 种最佳管理方法

OneAlert 等供应商通过事件聚合完成这一工作,即通过事件源(如 Nagios)将事件告警整合起来,并利用主机 ID 和时间等元素减少事件、进行事件归类并以单个事件的形式呈现多种事件。...

对抗不可执行告警的四种措施

过量的不可执行告警会造成告警疲劳,浪费时间和资源,从而耽误你解决实质性的问题,可能这些已经在你身边正悄无声息地发生着: 你是否自动忽略收到的多余告警? 你是否收到很多与你无关的告警...

也许狼真的来了,我们该怎么办?

《狼来了》的故事对人有启示意义,对机器也一样。运维人员每天可能接收大量的告警消息,也许有很多重复、无效的邮件信息,对运维同学来说就像一直收到「狼来了」的消息,终会有遗漏的风险。另...

2016/03/23 16:45
12
颜值不够身材凑,沟通不畅平台上!

前两天我被一篇「不是因为坚强而漂亮,而是因为漂亮而坚强」的文章震撼到了,一个丑女孩(原谅我,文中女孩未减肥前实在够不上漂亮二字),成功瘦到只有原来的一半!因为身材变好,整个人完全...

这样查看告警邮件要慢一点……

当然不是指像上图那样一边开着车听着歌,握着男/女朋友的手,一边查看告警邮件的时候要慢一点。原因大家都懂的,我就不拆了(因为你们都是单身狗啊!单身狗啊!单身狗啊!)。这里要说的是,...

2015/12/09 18:48
36
Google 和 Facebook 如何大规模处理 IT 事件管理 —— 2016 SRE 大会之我

本文作者为 Maria Arbisman,主要介绍 Google 与 Facebook 两大巨头是如何大规模处理 IT 事件管理。文章系国内 ITOM 管理平台 OneAPM 编译呈现。...

如何让运维指标变得更有价值?

这是《运维不容错过的4个关键指标》的姐妹篇,上篇文章介绍了优秀运维团队需要关注的4个关键指标,我们分享了平均恢复时间 MTTR、平均响应时间 MTTA 等概念。这篇是介绍一些实践方法,更好的...

2015/12/15 11:05
21
OneAlert 入门(四)——事件分派和通知必达

OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分...

2016/01/26 13:34
41
如何把关联性的告警智能添加到 Nagios 上?(2)

######上节回顾 对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒。一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性;但是另一方面,Nagios 也能...

2015/12/22 11:32
25
告警分析:如何帮助运维团队快速做出最佳决策?

「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于现在的运维状况。 如果你运维一线人员,是否会遇到以下情况: 公司所有的服务器告警消息会塞满自己的...

2016/01/19 14:54
33
Zabbix 集成 OneAlert 实现全方位告警

##1. 前言 告警将重要信息发送给运维「或者其他相关人」,及时发现并且处理问题。在所有开源监控软件里面,Zabbix 的告警方式无疑是最棒的。告警的方式各式各样,从 Email 告警到飞信、139/1...

2015/10/13 14:07
106
五种令人沮丧的告警垃圾及处理办法!

在 OneAlert,我们经常与运维团队聊天。因为产品开发过程中,这样的对话有助于了解客户的真正痛点。「告警垃圾」——监控系统中时常涌现的告警洪流,是运维团队经常提到的一大痛处。 至于其原...

2015/12/24 12:09
13
论MOBA类游戏五号位的重要性

观众朋友们,也许你对题目很好奇,才打开这篇文章。为什么技术圈中会出现游戏类的软文?如果时间充足,可以继续往下看。 MOBA 类游戏的兴起,逐渐吞噬游戏市场,以病毒式的扩张方式肆意改变着...

2016/03/09 16:22
22
Nagios 邮箱告警的方式太OUT了!

一般来讲,在安装完 Nagios 后,我们做的第一件最正确的事,就是设置它的邮件通知,对吧。因为如果没有这一步骤的话,你怎么能够知道什么时候会出现问题呢? 伴随着成功的初始安装,你即将是...

2015/12/10 15:33
33
Zabbix 集成 OneAlert 实现全方位告警

告警将重要信息发送给运维「或者其他相关人」,及时发现并且处理问题。在所有开源监控软件里面,Zabbix 的告警方式无疑是最棒的。告警的方式各式各样,从 Email 告警到飞信、139/189邮箱、最...

2015/09/23 16:42
54
为什么「告警等级」对缩短平均修复时间如此重要?

互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。 在...

2016/01/06 10:43
25
运维不容错过的4个关键指标!

很难说,生活在这个数据大爆炸的时代对运维同学是福还是祸。灵活的监控系统、开放 API 和易用的数据可视化资源可以将任何想要的数据图表化地显示出来,但是,过多的数据容易产生干扰,反而不...

2015/12/03 10:29
48
从 IT 中断中学到的最佳监控实践

每个运维监控工具,一般要追踪数十万个内部性能指标。学会对哪些事件进行告警以及监控确实需要花费想当长的一段时间。因为,并非所有的指标等级都是一致。因此我们需要摸索出一套简单的方法,...

2016/01/27 11:31
60

没有更多内容

加载失败,请刷新页面

返回顶部
顶部