文档章节

优云蒋君伟:运维监控大数据的提取与分析

优云双态运维
 优云双态运维
发布于 2016/11/14 16:20
字数 1944
阅读 27
收藏 0
点赞 0
评论 0

本文内容整理来自【敏捷运维大讲堂】蒋君伟老师的线上直播分享。分别从以下3个维度来分享:1、云时代监控分析的窘境;2、使用标签标记监控数据的维度;3、监控数据应用场景。

 

云时代监控分析的窘境

在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据。传统的监控工具在这种场景下,对于数据的提取分析,已经力不从心,反而成为了运维的负担。

我们用一个典型的互联网档案分析应用举例说明:

这个应用支持容灾与负载均衡,它部署在三个数据中心,并同时提供服务;

应用按微服务思想设计,内部划分为多个技术组件,包括APIGateway、档案、登记、通知、支付及一些数据库服务

技术组件可弹性扩缩容

这样的应用目前很常见,它有这样一些特征:

变:架构变、实例变

由于研发每周都在迭代,可能随时都加增加新的技术组件种类,如增加一个MongoDB作为文档类数据存储;同时由于弹性扩缩容,每个技术组件的实例时刻也在变,比如下图,就减少了一个档案服务,增加了一个支付服务:

这给监控带来了难题:如何监控经常变化的目标? 答案是:监控配置自动化,随基础架构扩展,并标记监控目标。

在Zabbix与UYUN Monitor产品中,都可以使用自动部署与发现来实现自动扩展监控。Zabbix主要使用标记与自动分组的方式,而Monitor则使用标签的方式:

 

多:种类多、实例多

一个公司可能存在30多个这样的集群应用,它使用上百种技术组件,数千个虚拟机或容器实例。如此大的规模,带来了巨大的监控复杂度,新的难题是:我们变得更难预测的故障诊断场景!

我们举几个具体的场景来说明这点:

 

场景1:我想要知道所有的档案查询次数

 

档案查询次数是衡量整个应用业务量的一个重要指标,这个场景的难点是档案服务是多实例的,并且分布在多个数据中心。针对这个场景,我们的解题思路是:合计所有数据中心的所有档案服务的查询API调用次数,即下图中所有红色部份:

使用Zabbix时,可以按如下步骤:

创建一个档案服务group,包含所有数据中心的所有档案服务

创建一个item,使用汇聚 groupfunc 合计 group 内的所有查询API调用次数

使用UYUM Monitor时,则配置如下字符串即可:

m=sum:查询API调用次数{技术组件=档案服务}

实现效果:

 

场景2:我想知道APIGateway TCP连接数三个中心的各自占比

通过连接数占比,我们可以分析出各个数据中心的负载是否均衡。其解题思路是:独立合计每个数据中心的APIGateway TCP连接数,即如下红色部份:

使用Zabbix时,可以按如下步骤配置:

创建三个数据中心APIGateway group g1. 杭州东 APIGateway group g2. 杭州西 APIGateway group g3. 宁波 APIGateway group

创建对应item 分别统计其TCP连接数合计

使用UYUM Monitor时,还是配置如下字符串即可:

m=sum:TCP连接数{数据中心=*,技术组件=APIGateway}

实现效果:

 

场景3:我想知道各种服务的主机CPU平均利用率趋势

 

通过将一些技术组件的CPU利用率在一个趋势图中显示,我们可以利用指标间的正相关性,来分析组件间的影响,比如档案服务的CPU利用率升高时,提供其数据的Redis服务CPU使用率也在升高。其解题思路为:分别为每种服务求得其主机CPU平均利用率,并在一个趋势图中展示。

使用Zabbix时,可以按如下步骤配置:

创建各个技术组件对应的group,包含:是APIGateway、档案、登记、通知、支付、MySQL等等

创建对应item 分别统计其主机CPU利用率平均值

而使用UYUM Monitor时,依然是配置如下字符串:

起始时间=30分钟前&m=avg:主机CPU利用率{技术组件=*}

实现效果:

 

使用标签标记监控数据的维度

 

我们可以看出,Zabbix与Monitor针对一些数据的提取方式是不一样的。Zabbix更多的是使用Group分组的方式,来梳理某些维度同类型的信息,这种方式是我们过去惯用的,组织一棵树来抽象世界。

但是,世界其实是平的,各种事物实际上是平等存在的,只是它们有着各自的特性而已。所以,我们所需要的只是按需用这些特性标签来提取它们。举例来说,下图就可以看到两个主机的各种标签:

使用UYUN Monitor时,可以按很多种不同的方式来建立标签,包括:

1、安装代理时指定

2、查看主机信息时指定

3、以及通过自定义脚本推送指标时指定 推送到本机代理:

在为监控对象建立好这些标签后,我们就可以充分使用标签带来的便利,随需查询,不预设场景。

 

监控数据应用场景

 

新一代的监控系统,其本质实际上是一个监控大数据收集与分析平台,它不限定监控底层的数据来源以便全面覆盖运维对象,通过海量存储与灵活的数据提取能力,为上层的各种运维场景,提供如大屏可视化、报警、分析报表等功能。

UYUN Monitor 也提供了多种上层的运维分析功能,包括:

1、个性丰富的仪表盘,能灵活提取各类监控数据按多种方式展现

2、指标的阈值检查策略,能对集群指标进行综合汇聚与告警

3、第三方数据查询OpenAPI,提供数据的二次消费入口

可以看出,面对云时代,我们对监控系统的要求已经产生了变化,监控系统实际上已经转变 为一个监控大数据收集与分析平台,它不限定监控底层的数据来源以便全面覆盖运维对象, 通过海量存储与灵活的数据提取能力,为上层的各种运维场景,提供如大屏可视化、报警、 分析报表等功能。

本次主题《监控大数据的提取与分析》的分享希望对大家有所帮助,优云敏捷运维大讲堂面向运维领域的技术分享、最佳实践将不定期与大家见面,敬请期待。

讲师介绍

 

蒋君伟

•  IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验

•  先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目

优云全线产品免费试用:https://www.uyun.cn

© 著作权归作者所有

共有 人打赏支持
优云双态运维
粉丝 3
博文 85
码字总数 110714
作品 0
杭州
程序员
云时代下,如何从容应对海量数据运维?

随着越来越多企业选择在云平台上部署自己的应用,云端层面的运营与维护也随之产生,显然,这种云运维方式相对于传统运维来说发生了很大变化。如何实现快速部署、及时更新、实时监控、轻松配置...

DBAplus社群
01/17
0
0
让AIOps把你从繁复耗时的基础运维中解放出来

云智慧科技有限公司杨路在2018云栖大会上海峰会中做了题为AIOps在业务运维的最佳应用实践的分享,从云智慧与AIOps结缘开始介绍,再到云智慧AIOps的最佳实践以及AIOps更大的价值三大方面的内容...

云迹九州
06/27
0
0
北塔软件:BI+AI+DI,做IT运维数据掘金的使能者

需要决策的地方,都需要数据支撑,大数据的价值就在于此。随着云计算、大数据、移动化、社交网络等新兴应用的蓬勃发展,IT运维的数据量开始爆发。那么,这些数据是待开垦的荒山,还是价值连城...

玄学酱
03/05
0
0
Gdevops全球敏捷运维峰会北京站圆满落幕

仲夏之时,紫禁之巅,众师齐聚,技术盛典!在刚结束的端午小长假,2016全球敏捷运维峰会(Gdevops)第二站在“中国硅谷”北京中关村盛大举行。继4月份杭州站的成功举办,Gdevops峰会时隔两个...

玄学酱
05/23
0
0
Oracle、MySQL、云计算、大数据,最热话题好文都在这了!

在过去的九个月里, DBAplus社群始终聚焦各种数据库、云计算、大数据及中间件等热门话题,坚持每天为大家献上最新鲜、最内涵的技术好文!下面小编就把这些优质文章分门别类,给大家做个梳理,...

DBAplus社群
2016/06/29
0
0
用大数据思维做运维监控是怎样一种体验?

早先就看到过这样一篇文章,叫《大数据对于运维的意义》。该文章基本上是从三个层面阐述的: 当然,这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现。并没有谈及如何和大数据相关的...

祝威廉
2016/07/06
0
0
Gdevops北京站:干货太多,慎入!(含PPT)

仲夏之时,紫禁之巅,众师齐聚,技术盛典!在刚结束的端午小长假,2016全球敏捷运维峰会(Gdevops)第二站在“中国硅谷”北京中关村盛大举行。继4月份杭州站的成功举办,Gdevops峰会时隔两个...

DBAplus社群
2016/06/12
0
0
锐捷网络综合运维中心:面向未来IT治理的“三字经”

在网络服务成为企业发展主要驱动力的今天,日渐庞杂的IT系统使得网络运维工作变得越来越难以驾驭。与此同时,在移动互联、大数据、云计算、虚拟化、区块链等新技术浪潮冲击下,IT运维管理面临...

玄学酱
04/18
0
0
2018 Gdevops成都站:确认过干货,是你想要的PPT!

4月21日,2018 Gdevops全球敏捷运维峰会以成都为起点,拉开了本年度新一轮精彩技术巡演的序幕!峰会当天虽然下着绵绵细雨,但这显然阻碍不了童鞋们对技术学习的渴望,大家都如约而至,热情燃...

Gdevops
04/23
0
0
腾讯云数据库智能化海量运维的建设与实践

本文根据鲁越老师在〖Gdevops 2018全球敏捷运维峰会成都站〗现场演讲整理而成。 (点击此处,获取鲁越演讲完整PPT) 讲师介绍 大家好,今天很高兴能和大家分享一下我们腾讯云数据库海量运维的...

鲁越
06/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

SpringBoot | 第十章:Swagger2的集成和使用

前言 前一章节介绍了mybatisPlus的集成和简单使用,本章节开始接着上一章节的用户表,进行Swagger2的集成。现在都奉行前后端分离开发和微服务大行其道,分微服务及前后端分离后,前后端开发的...

oKong
今天
5
0
Python 最小二乘法 拟合 二次曲线

Python 二次拟合 随机生成数据,并且加上噪声干扰 构造需要拟合的函数形式,使用最小二乘法进行拟合 输出拟合后的参数 将拟合后的函数与原始数据绘图后进行对比 import numpy as npimport...

阿豪boy
今天
1
0
云拿 无人便利店

附近(上海市-航南路)开了家无人便利店.特意进去体验了一下.下面把自己看到的跟大家分享下. 经得现场工作人员同意后拍了几张照片.从外面看是这样.店门口的指导里强调:不要一次扫码多个人进入....

周翔
昨天
1
0
Java设计模式学习之工厂模式

在Java(或者叫做面向对象语言)的世界中,工厂模式被广泛应用于项目中,也许你并没有听说过,不过也许你已经在使用了。 简单来说,工厂模式的出现源于增加程序序的可扩展性,降低耦合度。之...

路小磊
昨天
165
1
npm profile 新功能介绍

转载地址 npm profile 新功能介绍 npm新版本新推来一个功能,npm profile,这个可以更改自己简介信息的命令,以后可以不用去登录网站来修改自己的简介了 具体的这个功能的支持大概是在6这个版...

durban
昨天
1
0
Serial2Ethernet Bi-redirection

Serial Tool Serial Tool is a utility for developing serial communications, custom protocols or device testing. You can set up bytes to send accordingly to your protocol and save......

zungyiu
昨天
1
0
python里求解物理学上的双弹簧质能系统

物理的模型如下: 在这个系统里有两个物体,它们的质量分别是m1和m2,被两个弹簧连接在一起,伸缩系统为k1和k2,左端固定。假定没有外力时,两个弹簧的长度为L1和L2。 由于两物体有重力,那么...

wangxuwei
昨天
0
0
apolloxlua 介绍

##项目介绍 apolloxlua 目前支持javascript到lua的翻译。可以在openresty和luajit里使用。这个工具分为两种模式, 一种是web模式,可以通过网页使用。另外一种是tool模式, 通常作为大规模翻...

钟元OSS
昨天
2
0
Mybatis入门

简介: 定义:Mybatis是一个支持普通SQL查询、存储过程和高级映射的持久层框架。 途径:MyBatis通过XML文件或者注解的形式配置映射,实现数据库查询。 特性:动态SQL语句。 文件结构:Mybat...

霍淇滨
昨天
2
0
开发技术瓶颈期,如何突破

前言 读书、学习的那些事情,以前我也陆续叨叨了不少,但总觉得 “学习方法” 就是一个永远在路上的话题。个人的能力、经验积累与习惯方法不尽相同,而且一篇文章甚至一本书都很难将学习方法...

_小迷糊
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部