文档章节

使用阿里云平台定制的一套监控方案

阿dai学长
 阿dai学长
发布于 08/26 11:44
字数 1445
阅读 31
收藏 0

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>

老生常谈——为什么配置监控?

当开发提交代码、运维完成部署后,我们开发的程序便运行起来。但是程序运行是正常,期间是否会出现什么意外问题,对于任何开发/运维人员来说都是很难在没有任何辅助工具的情况下感知到的,尽管在上线之前由测试同学做了地毯式的测试,但是因为测试环境和线上环境终究是有区别的,难免有覆盖不到的问题。很多时候一直到接到用户的投诉电话,bug才能被发现,其实此时已经大面积影响用户使用,对于用户体验和提升用户粘性来说是很糟糕的事情!

通过监控系统来辅助技术人员第一时间发现、处理、修复线上业务是一件相当重要的事情。但是,告警的配置是一个不断优化的过程,因为告警的基础取决于数据,而数据是根据业务的不断优化在不断变化的,监控的配置整体来说是一个动态的过程,如果为了完成任务而去添加告警,想着一蹴而就,很容易造成误报,进而随着时间的推移导致告警疲劳。

所以,可靠稳定的产品背后必须要有靠谱的监控报警框架做支撑。

监控系统

针对不同的场景,告警系统主要分为三部分:基础监控、接口监控(arms)、业务监控。

基础监控

基础监控是通过阿里云平台的云监控实现的,主要对ecs实例、slb、redis实例、rds实例、api网关、oss存储、CDN等基础服务做了监控,监控指标如下:

  • 实例存活状态;
  • 内存使用率;
  • CPU使用率;
  • 磁盘使用率;
  • 带宽使用率;
  • QPS使用率;
  • … ...

该部分主要由运维组来配置、关注并及时对告警作出应急响应!

配置方法:阿里云云监控

接口监控

接口监控是对应用的基础监控,主要包括各个应用接口的请求频率、响应时间、错误数及整个调用链路等,该部分是通过阿里云的arms(应用实时监控服务)系统来实现,示例如下:

20190826156678696241158.png

该部分需要在edas中开启应用的高级监控功能,通过edas发布的时候会自动部署。运维人员负责督导,技术人员关注并对告警作出应急响应,及时评估业务可用性,保证业务正常运行!

配置方法:阿里云arms监控

业务监控

业务监控是目前对线上业务最细粒度的监控,各个监控指标直接反应了业务的实时可用性,相对于前两周种监控来讲,业务监控更直观的反应了client(客户端)的使用情况,所以也是重中之重!该部分是通过阿里云的日志服务来实现的,示例如下:

20190826156678750216648.png

该部分由运维组联合大数据组配置日志服务,然后由开发来配置具体监控项,告警信息直接发送到企业微信"服务预警"群(机器人),发生告警后由开发主导、运维协助并督促来排查和修复线上问题!

配置方法:阿里云日志服务

监控配置规范

关于监控告警配置规范主要是针对业务监控。规范的告警信息,能提升可读性、fix(修复)效率。业务监控告警模板:

  • 业务名称:要简单明了
  • 告警原因:信息可靠有效
  • 告警提示信息:要精简、有指导性,提升技术人员fix效率
  • 告警提醒人:建议@all,广而告之,强制提醒!

以上模板不是一成不变的,统一是为了提升可读性,具体情况需要根据业务的需求适当进行调整,但是一定要遵循精简的原则!

Attention Pls!!!

注意事项!!!

其实很多时候,因为工作疲劳、不重要的告警太频繁等等导致大家慢慢不再关注告警,甚至直接屏蔽告警消息(免打扰),这种事情屡见不鲜,如何避免此类事情?

监控要靠谱!!!(不靠谱的告警,时间久了自然而然没人愿意关注!浪费感情~~)

配置靠谱的监控:

  • 监控指标要靠谱:这取决于开发人员对于自身所负责业务的了解!
  • 告警阈值要靠谱:告警阈值的设定直接关系到告警的频率,所以设定合适的阈值非常重要(动态!)
  • 告警信息要靠谱:告警信息禁止冗余的内容,三个字——讲重点
  • 应急响应要及时:负责人要时刻关注告警信息,对于自己管辖内的告警要及时响应及时反馈(避免其他人跟着担忧)

话外音: 对于告警信息,不应是屏蔽/免打扰,而是通过不断的优化合理的使用告警及时的反馈处理进度来提升业务稳定性,减少告警!

© 著作权归作者所有

阿dai学长
粉丝 76
博文 263
码字总数 337363
作品 0
朝阳
运维
私信 提问
阿里云落子广东 招千名工程师成立研发中心

  【IT168 评论】超过10万家广东企业已经成为阿里云付费用户,其中有上万家规模以上企业,广东已经成为阿里云新制造战略的大本营。   11月22日,阿里云总裁胡晓明在2017云栖大会・广东分...

it168网站
2017/11/22
0
0
阿里云Kubernetes Service Mesh实践进行时(1): Istio初体验

概述 Istio是一个用于连接/管理以及安全化微服务的开放平台,提供了一种简单的方式用于创建微服务网络,并提供负载均衡、服务间认证以及监控等能力,并且关键的一点是并不需要修改服务本身就...

osswangxining
2018/06/06
0
0
上海云栖:金融政企行业的CDN最佳实践

在刚刚结束的上海云栖大会飞天技术汇分论坛上,阿里云视频云产品架构师罗小飞进行了《阿里云CDN——面向金融政企的CDN最佳实践》主题分享,为上海的嘉宾介绍CDN的解决方案与技术服务体系。 ...

樰篱
2018/06/14
0
0
阿里是如何“宠”员工的?除了福利,还有这满屏黑科技

分散在世界各地的六万阿里员工是如何快速协同工作的? 在2018年杭州云栖大会现场,一块近4米宽的企业信息化大屏上,展示了全球阿里员工1天的云上办公与连接情况。 目前阿里巴巴的办公网络与音...

信息平台
2018/09/20
0
0
服务器搭建博客或论坛所需服务器及管理软件

  服务器搭建博客或论坛   论坛:个性网技术论坛   技术从来都是有进步没有退步,如果你还在以为任何网站都需要自己敲代码完成,说明你可能落后了,本媒体只做良心平台,专门分享互联网...

人工智能未来科技
2017/11/29
0
0

没有更多内容

加载失败,请刷新页面

加载更多

交换机switch 的shutdown 与 no shutdown

shutdown是关闭接口(端口),接口状态会变为DOWN,no shutdown是激活接口(端口),状态变为UP,一般在给vlan或者端口配置管理ip或者端口ip后使用。 有时候我们配置某个端口前会需要把端口关闭到...

刘日辉
35分钟前
5
0
AOP底层源码分析

思维导图 AOP AOP: 面向切面编程[底层就是动态代理] 指程序在运行期间动态的将某段代码切入到指定方法位置进行运行的编程方式。 AOP通知方式 前置通知: logStart(),在目标方法(div)运行之前运...

volc1612
49分钟前
5
0
OSChina 周六乱弹 —— 别听他们的,你不胖你只是毛茸茸的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @且无需多言 :分享Rise Against的单曲《Audience Of One (Ghost Note Symphonies)》: 硬核朋克不插电版本,隐藏在喧嚣下的柔情! 《Audienc...

小小编辑
今天
34
2
apache httpClient实现代理发送Post请求

CredentialsProvider credsProvider = new BasicCredentialsProvider(); credsProvider.setCredentials( new AuthScope("host", port), new UsernamePasswordCredentials(username, password......

huangkejie
今天
6
0
SpringCloud

单体应用存在的问题 ● 随着业务的发展,开发变得越来越复杂。 ● 修改、新增某个功能,需要对整个系统进行测试,重新部署。 ● 一个模块出现问题,很可能导致整个系统崩溃。 ● 多个开发团队...

Star永恒
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部