文档章节

如何有效预防宕机?你需要掌握这4个方法

OneAPM蓝海讯通
 OneAPM蓝海讯通
发布于 2015/09/07 20:02
字数 1359
阅读 1175
收藏 29

随着应用架构的不断演进,IT 系统也变得越来越复杂,这样就容易产生各类宕机事件。就在今年,国内外就出现了多起宕机事故。

  • 2015年1月27日,网友发现无法登陆 Facebook,页面显示「对不起,出故障了,目前正在抢修,会尽快修复」。

  • 2015年3月11日,包括 App Store、iTunes Store、Mac App Store 以及 iBooks Store 在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时。

  • 2015年5月,陌陌、网易、支付宝、携程网、艺龙网、招商证券、同花顺、齐鲁证券接连发生故障......

宕机事件会引发:

  • 最直接或者间接的经济损失!如果是社交类、服务类的应用,就会严重影响用户体验,会造成用户流失,其后果不亚于一般的经济损失,甚至直接影响到品牌价值。

如何有效预防宕机?你需要掌握这4个方法

  • 宕机事件发生后,必然会耗费大量工程师的精力和时间,这也是重要的「人力资源」损失。而且频发的宕机事故,会严重影响整个团队的士气。

所以当故障发生后,最快恢复故障是第一要务。而故障恢复时间(mean time to resolve)是重要的考核指标,那么如何有效降低故障恢复时间,就是运维团队面临的最严峻挑战。

预防宕机事件的 4 个方法

降低事件和告警数量

相信不少同学有过被大量的告警邮件、短信撑爆邮箱的经历。更有甚者,专门采购一台手机来接收各种监控短信,但大量无效的干扰事件、告警短信蒙蔽了运维同学的双眼,而这样会导致一个后果,就是一些重要故障可能会被忽略掉了。因此识别和确定重要故障尤为重要,而且大量的告警信息也是不合适的。所以,我们需要持续地降低事件和告警数量,但随着 IT 系统的不断升级变更,配套的监控就会调整,此时告警数量又会增加,所以我们要进行持续的调整。

国内第一个 SaaS 模式的云告警平台 OneAlert 就可以帮助用户很好地解决这个问题,该平台集成了国内外多种主流的监控和支撑系统,在一个平台上就可以集中处理所有 IT 事件, OneAlert 可以深度分析事件趋势,并进行回顾和优化操作,从真正意义上降低事件和告警数量。

降低故障恢复时间

首先需要收集有效数据,通过 OneAlert 对事件进行收集和分析,我们发现了两种情况:事件少,处理时间长;事件多,处理时间短,这两者都不合理。前者是不出事,出事就是大事,总结起来就是一句话:「监控不到位」。后者就是频繁的小事,经常会耗费整个团队的大量精力。最合理的方式就是是事件和处理时间的平衡。中间数(median time of resolve)的处理时间应该是20-30分钟,这仅供参考。当然,最理想的状态是事件和恢复时间同步日趋减少。

降低故障响应时间

如果我们的系统发生故障,第一时间能够发现问题当然是最好的,然而如果没有成熟的管理体系,故障的发现时间会延迟很久。例如:凌晨1点发生故障,早上7点起来看手机才知道故障,就算再快处理,也是好几个小时之后的事情了。所以建立快速响应机制是非常有必要的,最理想的方式就是响应时间能够迅速下降。在这一点上,OneAlert 提供了微信和电话的报警功能,能让用户第一时间得到报警通知,可以最快响应故障问题的处理。

升级策略

当事件发生后,如果在规定时间内没有处理,而事件可能会无限期的拖延或者是遗漏,如果建立有效的升级策略和高效的管理组织,就能够避免类似问题发生。现在,OneAlert 还提供了事件升级机制,如果一线值班人员拖延或者遗漏,则会升级到二线,以此类推,从而有效地防止故障问题疏漏。

如何有效预防宕机?你需要掌握这4个方法 我们相信,如果能够有效利用上面4个数据指标,以数据驱动,并进行持续的改进和优化。就可以有效的降低故障恢复时间,而且有序的事件处理过程,也能够让我们的团队成员保持良好的体能和精神。

OneAlert 是北京蓝海讯通科技有限公司(OneAPM)旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网,欢迎免费注册体验 。

© 著作权归作者所有

OneAPM蓝海讯通
粉丝 94
博文 631
码字总数 1266889
作品 0
海淀
私信 提问
加载中

评论(16)

-(-能量)
-(-能量)

引用来自“-(-能量)”的评论

引用来自“JadenTseng”的评论

搞个热备份服务器,哪个机器出故障了漂移ip

哈哈

[再见],点击[ http://pinyin.cn/e19971 ]查看表情
-(-能量)
-(-能量)

引用来自“JadenTseng”的评论

搞个热备份服务器,哪个机器出故障了漂移ip

哈哈
君枫
君枫
啧啧啧
JadenTseng
JadenTseng

引用来自“JadenTseng”的评论

搞个热备份服务器,哪个机器出故障了漂移ip

故障转移集群
JadenTseng
JadenTseng
搞个热备份服务器,哪个机器出故障了漂移ip
杨应滨
杨应滨
这全都是套路呀!
唐家V
唐家V
几张图片看不了麻烦恢复一下
唐家V
唐家V
看到后面原来是买广告
xter
xter
好硬的广告
发条机器人
姑奶奶
现代质量管理方法的应用思考和实践

  质量是什么?质量就是符合客户要求。在产品的质量特性上不仅要满足客户明示出来的、也要满足通常隐含的和必须履行的要求与期望;而且,要求是覆盖全流程各环节,是动态变化不断发展的。在...

糖糖豆豆
2014/12/16
45
0
年末蓄势再掀风云,和贯科技勇夺一标

和贯科技2017年年末再夺一标:《西南大学智能设备管理与业务服务流程平台定制开发服务》 智能制造环境下,设备日益智能化,但无论设备如何智能,如何自动化,也避不开设备的老化和磨损 同时,...

和贯科技
2017/12/29
0
0
“寒冬”三年经验前端面试总结(含头条、百度、饿了么、滴滴等)

前言 跳槽是每个人的职业生涯中都要经历的过程,不论你是搜索到的这篇文章还是无意中浏览到的这篇文章,希望你没有白白浪费停留在这里的时间,能给你接下来或者以后的笔试面试带来一些帮助。...

是呀呀呀
10/08
0
0
世界上有两样东西不可直视,一是太阳,二是人心。

  世界上有两样东西不可直视,一是太阳,二是人心。   最近的大太阳天,让坏心情无处遁形。狼狈暴露在阳光下的,除了人尽皆知的疫苗事件,还有不堪的人性。   中国是一个“化腐朽为神奇...

中国人工智能
2018/07/22
0
0
管理软件开发项目关键风险

1.人员流失风险 考虑了下,还是把人员流失作为项目第一大风险,软件项目管理最重要的还是人的因素。特别是关键项目成员流失可能会导致整个项目的重大延期和失败。人的职业过程中主要受到金脉...

dongzhumao
2013/06/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

前端技术之:Prisma Demo服务部署过程记录

安装前提条件: 1、已经安装了docker运行环境 2、以下命令执行记录发生在MackBook环境 3、已经安装了PostgreSQL(我使用的是11版本) 4、Node开发运行环境可以正常工作 首先需要通过Node包管...

popgis
今天
5
0
数组和链表

数组 链表 技巧一:掌握链表,想轻松写出正确的链表代码,需要理解指针获引用的含义: 对指针的理解,记住下面的这句话就可以了: 将某个变量赋值给指针,实际上就是将这个变量的地址赋值给指...

code-ortaerc
今天
4
0
栈-链式(c/c++实现)

上次说“栈是在线性表演变而来的,线性表很自由,想往哪里插数据就往哪里插数据,想删哪数据就删哪数据...。但给线性表一些限制呢,就没那么自由了,把线性表的三边封起来就变成了栈,栈只能...

白客C
今天
42
0
Mybatis Plus service

/** * @author beth * @data 2019-10-20 23:34 */@RunWith(SpringRunner.class)@SpringBootTestpublic class ServiceTest { @Autowired private IUserInfoService iUserInfoS......

一个yuanbeth
今天
5
0
php7-internal 7 zval的操作

## 7.7 zval的操作 扩展中经常会用到各种类型的zval,PHP提供了很多宏用于不同类型zval的操作,尽管我们也可以自己操作zval,但这并不是一个好习惯,因为zval有很多其它用途的标识,如果自己...

冻结not
昨天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部