文档章节

初伏天,热出 5 种 DevOps 事件管理工具

数人云
 数人云
发布于 2017/07/14 10:54
字数 2022
阅读 17
收藏 0

数人云:最近两天这个天呀,真是出门5分钟,流汗2小时,小数保持冷静,盘点5种DevOps事件管理工具,一起来消消暑吧:)

最少的BUG,最优质的代码是开发的终极目标。正如Arkenea的创始人Rahul Varshneya在其文章中描述NASA的开发和处理软件:“所有应用都有BUG。”尽管有成百上千的人在规划、研发、测试NASA的代码,但负责宇航员生活的应用仍然存在BUG。

DevOps的目标——确保在生产中能够检测到的每一个BUG,并根据其应用功能或者可用性的影响度来分级、及时处理。由DevOps处理的生产问题称为“事件”。

1998年,NASA发射火星气候探测器,作为火星极地登录计划的一部分。1999年9月23日,轨道飞行器失联,一队技术人员花费24个小时以上的时间,尝试深空网络天线用以恢复联系。若只知道其在几百万英里以外,但不知确切位置,该如何解决此问题?

NASA发布的Twitter:

Markdown

尽管运维团队一直在遵循着ITIL原则,但以现在来说略显过时。随着应用发布时间缩短,标准的SLA用于宕机或缺陷辨识度为0,DevOps和事件管理过程必须做出相应调整。事件需分类和优先排序,最好有自动服务,与相关的程序员和测试进行合作分配处理,在一天内给出解决方案。

面向客户的DevOps人员应24小时跨时区覆盖,每个SLA漏洞都要触发升级,并迅速涉及到更高技术层。为了让应用始终运行、正确处理事件、符合标准,需要事件管理工具,本文将列举5个:

PagerDuty

Markdown

PagerDuty是自动化处理的系统,可以将在生产维护上投入的时间精力降低到最低。该工具通过应用环境中的所有系统对告警和时间进行排序,并洞察其中的关联进行分组。减少了同一事件连续告警的问题,有助于将焦点放在实际时间上,提高解决效率。PagerDuty允许用户定制告警,且向相关人员发送信息,帮助解决所有类型的问题。

该工具收集信息从数据库中读取模式,助力自动升级,根据应用特定区域的前几次事件,给出基本决策。为DevOps管理人员提供所有事件及状态的实时视图。作为实时仪表板的一部分,事件能够相关联,管理人员可以进行深入研究,对事件的生命周期和路由做出对策。

该工具提供的分析和报告能跟踪系统性能趋势并分析故障根源。还可监控不同团队的工作效率,为未来事件优化处理生命周期。PagerDuty最近推出了一款手机应用,用户可以在任何时间、地点管理和监控生产事件。PagerDuty也集成了150多个监控、部署的工具,因此在核心系统中很容易实现并立即查看结果。

OpsGenie

Markdown

OpsGenie是一款在云端部署告警和监控的应用,路由、通知规则和移动效率是OpsGenie的特色。使用该工具第一步要为告警和通知路由定义时间表,用于处理不同地区团队下班后的事件,且能发起适当的决策操作。

OpsGenie提供电话服务来跟进未处理的告警,保持每个管理员的沟通和响应,并允许其根据事件的严重性和数量进行分级告警。OpsGenie的手机客户端可以做出相应的操作和决策。

生命周期和通知列表对每个告警都有详细的记录文档,且可以后期处理,用来改进流程中的问题和提高效率。从易维护的角度看,使用此工具的企业能将通知管理整合到分组里,可以设置细节和偏好,防止数据重复,减少管理负担。

VictorOps

Markdown

VictorOps将自己描述为PagerDutry的另一种选择,是一个实时管理事件的平台,可以对突发事件作出响应,预知未来事件作出准备。事件告警根据一个调用计划发送,也可以被动态重定向。告警是动态、可配置的,因此能够被修改为包含服务日志的链接,或任何人都可以遵循的解决方案。利用与其他工具的集成,VictorOps构建了一个“时间轴”,显示整个生态系统的信息,即可轻松调查事件,或与其他事件关联。

VictorOps还引入了Transmogrifier,允许定制从告警到事件流的所有内容,使得事件管理更为简单,该工具内置聊天功能,有助于团队协作,快速解决问题。

Jira

Markdown

Jira服务平台是Jira组合的一部分,帮助开发和DevOps以最好的方式构建、发布软件。服务为部门认为服务是最耗时的,因此该工具提供了一种自助服务模块,其中包含有用信息的知识库,用户可以在向客户服务代理请求帮助之前自行查询。还可以应用于ITIL驱动的组织和使用较新的事件管理方法,通过集成问题和变更管理模块,并为生产中的每一种事件生成详细的工作流程。

Jira也提供了大量的API,允许和任何CRM或票务管理系统简单集成。因此Jira能让企业更便于编辑服务平台数据中心,DevOps关注关键任务和企业能够快速使用服务台,服务台能让企业编辑服务台数据中心,DevOps可以关注任务关键服务和容灾计划。

FreshService

Markdown

FreshService是一站式ITIL软件,为整个IT运营部门提供解决方案。其事件管理模块与不同的通道进行通信,使用电话、聊天、甚至电子邮件报告新的事件。每一个事件都被优先处理,并且提供相关规则,自动路由到合适的代理或团队。事件信息会被存储,分析,一旦解决,可以作为以后发生类似事件的方案建议。该工具有能力根据响应事件自动将事件分配给不同的团队。

FreshService还提供了一个诊断模块,允许用户或客户提交方案进行诊断,并给出反馈,团队根据反馈进行改进。 FreshService了解重大事件对不同企业的影响,在此基础上,建立了一个只处理重大事件的模块,此模块有独立的进程、元数据、升级方法和更高的管理参与接口。让影响广泛的、跨部门的事件能够快速有效处理。

结论

对事件SLA的正确的响应、及时响应是目标,需要深入了解应用的前后端,高端面向服务和正确的工具。本文所讨论的工具可以作为处理过程的基础设施,对相关人员进行支持,提高效率和问题改进。

正如没有完美的应用一样,也没有完美的事件管理工具。本文概述了5个主要的事件管理工具,如何处理生产服务中断并尝试解决。企业首先需要决定标准和服务目标,根据特性和功能选择工具。

以下是这些事件管理工具之间的差异:

Markdown

原文作者:Daniel Berman

原文链接:https://logz.io/blog/incident-management-systems/?utm_source=tuicool&utm_medium=referral

© 著作权归作者所有

共有 人打赏支持
数人云
粉丝 16
博文 101
码字总数 328110
作品 0
朝阳
架构师
对抗告警疲劳的8种方法

【编者按】本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 [ITOM][1] 管理平台 [OneAPM][2] 编译呈现。 各司其职、孤军作战非常不利于团队沟通,一...

OneAPM蓝海讯通
2016/06/22
27
0
搜狐畅游高级DBA:Oracle运维中的实战经验和应对技巧

作为一个孜孜不倦、已连续坚持技术写作800多天的技术分享人,搜狐畅游资深数据库专家杨建荣在Gdevops全球敏捷运维峰会北京站的讲台,给现场带来了一场题为《Oracle运维中的些实战经验和应对技...

DBAplus社群
2016/06/21
0
0
IT人士耻于下问但又不可不知的“聊天运营”——ChatOps

作为敏捷创新的主流方法之一,DevOps(开发运营)如今是科技人士挂在嘴边的热词。DevOps的实质是促进开发、技术运营和质量保障等部门之间的沟通协作与整合的一套方法和系统。 最近在硅谷有影...

张霖
2014/12/18
0
0
浅析DevOps解决方案的变迁

前言 最近Puppet和RightScale相继发布了DevOps 2016报告,其中Puppet的报告侧重于DevOps的价值ROI的调查结果,用调查结果佐证了DevOps给企业研发生产力和质量带来大幅的提升。RightScale的报...

English0523
2017/09/11
0
0
别让安全问题拖慢了 DevOps!

DEVSECOPS 所面临的挑战 敏捷开发和 DevOps 方法的出现使软件开发的速度与质量都有所提升,但它们不经意地也为安全机构增压不少。从前的安全策略是基于静态数据的,而在产品上线前才应用这些...

OneAPM蓝海讯通
2016/03/23
14
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

OSChina 周三乱弹 —— 公司女同事约我

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @莱布妮子:分享水木年华的单曲《蝴蝶花(2002年大提琴版)》 《蝴蝶花(2002年大提琴版)》- 水木年华 手机党少年们想听歌,请使劲儿戳(这里) ...

小小编辑
3分钟前
0
3
Linux环境搭建 | VMware下共享文件夹的实现

在进行程序开发的过程中,我们经常要在主机与虚拟机之间传递文件,比如说,源代码位于虚拟机,而在主机下阅读或修改源代码,这里就需要使用到 「共享文件」 这个机制了。本文介绍了两种共享文...

良许Linux
今天
5
0
JUC锁框架——AQS源码分析

JUC锁介绍 Java的并发框架JUC(java.util.concurrent)中锁是最重要的一个工具。因为锁,才能实现正确的并发访问。而AbstractQueuedSynchronizer(AQS)是一个用来构建锁和同步器的框架,使用A...

长头发-dawn
今天
3
0
docker中安装了RabbitMQ后无法访问其Web管理页面

在官网找了"$ docker run -d --hostname my-rabbit --name some-rabbit -p 8080:15672 rabbitmq:3-management"这条安装命令,在docker上安装了RabbitMQ,,结果输入http://localhost:8080并不......

钟然千落
今天
4
1
spring-cloud | 分布式session共享

写在前面的话 各位小伙伴,你们有福了,这一节不仅教大家怎么实现分布式session的问题,还用kotlin开发,喜欢kotlin的小伙伴是不是很开心! 以前在写Android的时候,就对客户端请求有一定的认...

冯文议
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部