文档章节

大众点评Cat监控系统的部署与操作说明

何须一丝不挂
 何须一丝不挂
发布于 2017/08/20 22:48
字数 3727
阅读 4929
收藏 5
CAT

cat是大众点评开源的一套基于java的实时应用监控平台,主要应用于服务中间件框架(MVC 框架、RPC 框架、持久层框架、分布式缓存框架)的监控,为开发和运维提供各项性能指标、健康检查、自动报警等可视化服务。

cat支持的监控消息类型包括:

Transaction 适合记录跨越系统边界的程序访问行为,比如远程调用,数据库调用,也适合执行时间较长的业务逻辑监控,Transaction用来记录一段代码的执行时间和次数。

Event 用来记录一件事发生的次数,比如记录系统异常,它和transaction相比缺少了时间的统计,开销比transaction要小。

Heartbeat 表示程序内定期产生的统计信息, 如CPU%, MEM%, 连接池状态, 系统负载等。

Metric 用于记录业务指标、指标可能包含对一个指标记录次数、记录平均值、记录总和,业务指标最低统计粒度为1分钟。

Trace 用于记录基本的trace信息,类似于log4j的info信息,这些信息仅用于查看一些相关信息

 

以p2p系统作为客户端埋点示例.

 

1.部署

1.1 安装服务端

1.1.1 配置要求

内存 4G +

硬盘 100G +

操作系统 Windows或Linux操作系统(建议选用Linux操作系统)

1.1.2 环境需要

maven 3.2.3+

tomcat 7+

java 6+

mysql 5.6+

1.1.3 安装步骤

1.下载项目:git clone https://github.com/dianping/cat.git

2.切换到分支mvn-repo中将所需jar包放入本地maven仓库中。

3.在cat目录下,用maven构建项目:mvn clean install -DskipTests

4.配置cat的环境:mvn cat:install,按提示输入数据库配置参数。执行完成后,cat将会在数据库中创建cat表空间,并创建所有表结构;在/data/appdatas/cat/目录中,生成三个配置文件:client.xml、server.xml、datasources.xml(windows系统中,/data目录与源码目录在一个系统盘)

5.启动服务端:进入cat-home目录下,第一种是以jetty的方式启动mvn jetty:run;第二种是将cat-home中的war包放入tomcat的webapps下,用tomcat来启动服务。

6.修改路由配置:打开浏览器,输入http://部署地址:8080/cat/,进入右上角配置中,账号密码无限制,可以自由输入,默认为catadmin。在全局告警配置中设置客户端路由。

 

1.1.4 路由配置

 

 

说明:

1.步骤4可以手工完成,在MySQL中,创建cat表空间create database cat,执行监控系统源码/source/cat/script/Cat.sql脚本完成表结构的创建拷贝监控系统源码/source/cat/script/目录下的client.xml、server.xml、datasources.xml到/data/appdatas/cat/。

2.server.xml和client.xml的目的是为了让客户端找到服务端。而设置客户端路由是为了让客户端找到服务端后可以动态的添加服务器作扩容。

3.服务端集群的server.xml和client.xml配置保持一致,这样slave都能收到master的消息,master可以专注于消息分发,slave可以设置为 job-machine 和 alert-machine。

4.请确保data/appdatas/cat/和data/applogs/cat/具备读写权限。

 

1.1.5 client.xml配置

·mode : 定义配置模式,固定值为client;--暂未使用

·servers : 定义多个服务端信息;

·server : 定义某个服务端信息;

·ip : 配置服务端(cat-home)对外IP地址

·port : 配置服务端(cat-home)对外TCP协议开启端口,固定值为2280;

·http-port : 配置服务端(cat-home)对外HTTP协议开启端口, 如:tomcat默认是8080端口,若未指定,默认为8080端口;

 

1.1.6 server.xml配置

·local-mode : 定义服务是否为本地模式(开发模式),在生产环境时,设置为false,启动远程监听模式。默认为 false;

·hdfs-machine : 定义是否启用HDFS存储方式,默认为 false;

·job-machine : 定义当前服务是否为报告工作机(开启生成汇总报告和统计报告的任务,只需要一台服务机开启此功能),默认为 false;

·alert-machine : 定义当前服务是否为报警机(开启各类报警监听,只需要一台服务机开启此功能),默认为 false;

·storage : 定义数据存储配置信息

·local-report-storage-time : 定义本地报告存放时长,单位为(天)

·local-logivew-storage-time : 定义本地日志存放时长,单位为(天)

·local-base-dir : 定义本地数据存储目录

·hdfs : 定义HDFS配置信息,便于直接登录系统

·server-uri : 定义HDFS服务地址

·console : 定义服务控制台信息

·remote-servers : 定义HTTP服务列表,(远程监听端同步更新服务端信息即取此值)

·ldap : 定义LDAP配置信息(这个可以忽略)

·ldapUrl : 定义LDAP服务地址(这个可以忽略)

 

1.1.7 datasources.xml配置

 

1.2 安装客户端

1.2.1 客户端配置

1.在pom文件中加上对cat-client和cat-core的依赖(p2p项目中加在build.gradle文件中),需要将cat的依赖包添加到私服中使用(依赖包见附件cat/lib)

2.在src/main/resources下的META-INF中创建app.properties

 

3.在src/main/resources下创建cat文件夹,新建client.xml

 

4.在项目同目录的/data/appdatas/cat/下配置client.xml和server.xml地址参数(同上服务端)

 

1.2.2埋点示例

用transaction记录一段代码的执行时间,这里的时间是指从创建至complete之间的耗时。Event记录一个事件,如:一次远程调用的地址。Metric记录一个业务指标。

注意:

每一个transaction对象必须complete,并设置status,transaction对象是可以嵌套的,其他对象不可以嵌套。Event放置在transaction内部用于记录一些参数,而metric指标是用来监控业务情况的,能够记录一个指标的count次数、sum总数等。

 

1.2.3 启动客户端

启动项目,运行埋点代码,项目日志中显示:

 

 

Cat日志中显示:

 

 

服务端显示:

 

在上方的搜索栏左边可以展开/隐藏监控项目,点击下方的项目可以切换到该项目的视图,运行成功后即可在上方看到被监控项目的domain。

说明:在cat中无论是客户端还是服务端都被视作为一个domain,所有domain都会向data目录中配置的服务端发送消息,即服务端可以既是服务端又是客户端。在服务端中点击搜索栏的左边全部按钮,可以看到当前所有连接上服务器的domain。

 

1.3 服务端应用说明

因官网有较全面的说明,此处不再重复,建议直接在官网上查看,地址:http://unidal.org/cat/r/home?op=view&docName=user

 

2.主流框架集成

2.1 URL集成

在web.xml中新增filter,放在shiroFilter之后。

 

集成之后,每个请求都会显示在Transcation中。

在遇到restful形式的请求时,会出现url重复的问题。在业务代码中加入如下代码,可以将相同url进行自动聚合:

request.setAttribute("cat-page-uri", "urlName");

 

2.2 spring-mvc集成

在springmvc.xml中新增interceptor,采用拦截器的方式对请求进行统一处理。

 

拦截器见附件(cat/集成/spring-mvc/CatInterceptor)

 

2.3 mybatis集成

在applicationContext-mybatis.xml中新增插件配置,集成mybatis对sql进行监控。

 

 

拦截器见附件(cat/集成/mybatis/CatMybatisPlugins)

集成之后将会在Database中看到访问趋势

 

2.4 hessian集成

在外部调用过程中,通常我们需要三个ID:

·RootId,用于标识唯一的一个调用链。

·ParentId,标识调用方。

·ChildId,标识被调用方。

Cat在hessian中的传输过程:

1.logRemoteCallClient(context)从messageTree中获取三个ID

2.将ID储存在请求头中经过hessian序列化传输到服务方

3.服务方解析请求头获取ID,logRemoteCallServer(context),重组messageTree

 

文件见附件(cat/集成/hessian/call,cat/集成/hessian/server)

app调用p2p-service-bank示例:

Cross中记录了服务调用的情况。

调用方:

 

服务方:

 

logView中也会展示整个调用链的过程:

 

 

2.5 log4j集成

客户端的log通常建议全部打到cat中,这样才能快速发现问题。

 

Cat会记录日志中的error所报的异常信息,展示在Problem中

 

3.监控告警配置

3.1 业务大盘

业务大盘是对公司核心业务指标进行监控的实时报表:

1.进入配置中的项目配置信息的项目基本信息,配置项目。

 

没有接入CMDB系统的话,事业部产品线默认设置为Default。

 

2.在项目分组配置中配置业务监控(在当前开源版本的项目分组中好像只能配置业务监控,其它几个监控运用于cat的点评内部版本):

 

一个项目中通常只能有一个产品线,故其它产品线无法在选app。

产品线顺序为展示顺序,按数字从小到大的规则。

 

3.在系统中进行metric埋点,例如:

·记录开户人数logMetricForCount(“开户”)。

·记录投资总额logMetricForSum(“投资金额”,investmentAmount)。

·记录平均投资金额logMetricForDuration(“投资金额”,investmentAmount)

(单位时间默认为1分钟)

 

4.在应用监控配置下的业务监控配置中进行配置:

 

显示次数曲线需要设置logMetricForCount

显示平均曲线需要设置logMetricForDuration

显示求和曲线需要设置logMetricForSum

添加业务大盘标签会进行基线告警触发告警策略中的business类型的警告。

 

5.“当前值”表示当前实际值,“基线值”表示根据历史趋势算出来当天的基准线

 

3.2 告警配置

官网有较全面的告警文档,地址:http://unidal.org/cat/r/home?op=view&docName=alert

 

3.2.1 告警通知

以下将说明如何通过发送邮件对用户进行告警通知:

1.在全局告警配置中配置告警策略,默认的配置中没有Transaction和Event需要手动加上。

 

 

2.设置默认告警人,不同触发类型可以设置指定告警人,告警人将会受到该类型的所有告警。

3.设置告警服务端,url为已经编写好的发送消息接口,batchsend为批量发送,<par>标签为传递的参数可自定义,其中${receiver}对应默认告警人中的通知人。

 

Transaction警报时,消息发送接口收到参数示例:

 

 

3.2.2 Transaction告警

在应用监控配置中配置监控规则,根据type和name对具体的transaction进行监控。

Transaction告警规则示例:

 

定义了一个项目是app,类型为URL,名称是/jxaccount/myinvest的transaction的监控规则:从0点到24点,该transaction在1分钟之内连续触发最大执行次数超过10次的规则,则会发出告警。

name为非必填项,默认为All,监控当前type下的所有transaction。

 

3.2.3 Event告警

与transaction告警基本一致,除了监控项中没有响应时间,此处不再说明。

3.2.4 异常告警

 

域名:项目组名称,必需,当设置为“Default”时,适用于所有项目组。

异常名称:异常名称,必需,当设置为“Total”时,是针对当前项目组所有异常总数阈值进行设置;当设置为特定异常名称时,针对当前项目组所有同名的异常阈值进行设定。

Warning阈值:认定为Warning级别的阈值,必需,当异常数小于该阈值时,不做任何警报;当超过该阈值,小于Error阈值时,做Warning状态设置,做相应警warning告警。

Error阈值:认定为Error级别的阈值,必需,当异常数超过该阈值,做Error状态设置,做相应警Error告警。

 

注:1.对于不想进行异常告警的异常,可以在异常过滤配置里进行设置。

2.如果未设置默认告警人,则会通知该异常发生的项目的项目负责人。

3.监测异常并发送警报的周期为:一分钟

4.异常告警统计报表在cat-1.4.0版本中访问入口被注释掉了,可以通过链接进行访问:cat服务端地址:8080/cat/r/statistics

 

 

 

3.2.5 心跳告警

 

新增指标需要在心跳报表中设置该指标的alert=”true”。

在告警策略中类型为Heartbeat。

 

 

3.2.6 ping告警

 

Ping告警主要针对第三方服务。例如存管系统中对接的银行接口。

Url监控中,每隔一分钟就会向该url发起http请求,若返回码不是200则发出告警。

(ip监控貌似没有实现此功能)

在告警策略中该类型为ThirdPaty。

 

3.2.7 数据库告警

 

在告警策略中类型为database。

4.常见问题

4.1 服务端点击页面报500错误

检查server.xml是否设置正确。

4.2 服务端显示乱码,部分功能中数据不能正常添加

需要修改tomcat的server.xml文件,通过添加编码方式解决。

 

4.3 error when try connecting to /10.10.10.2:2280

没有正确设置客户端路由,用的是默认配置,所以客户端发送消息时连接不上服务端。

 

4.4 java.net.UnknownHostException:test

需要更改告警服务端的消息发送调用url,默认为test。

 

4.5 提交告警规则的时候出现400错误

设置tomcat允许请求带特殊字符,在catalina.properties中添加tomcat.util.http.parser.HttpParser.requestTargetAllow=|{}

 

4.6 cat服务端运行过程中内存不断变大出现oom

机器配置内存最低要求为4g,监控服务端内存占用情况,可以隔一段时间对服务端进行重启。

服务端挂掉之后不会影响客户端,服务端重启后,客户端会进行自动重连。

5.总结

本说明主要讲述cat的部署以及一些主要功能的使用说明,对于cat的内部版本功能以及少部分不常用功能因为文档缺失,还不是很了解就不做过多说明了。

在监控中需要解决的核心问题:响应时间,访问次数,是否报错。Cat通过报表和logView的形式将三者以非常直观的形式显示了出来。cat部署生产环境用于实时监控数据,解决线上问题;部署在线下测试环境,便于做压力测试。

后续开发中可以通过cat提供的api方式(在url后面加上forceDownload=xml参数)将report中的数据,通过爬虫的方式定期爬取做技术分析,或者用日志分析工具例如elk对cat的日志进行分析,这样就能有效的提高系统的优化以及稳定性。

附件链接: https://pan.baidu.com/s/1c8O7D0 密码: 6ucr

© 著作权归作者所有

何须一丝不挂
粉丝 1
博文 3
码字总数 5239
作品 0
广州
程序员
私信 提问
深度剖析开源分布式监控系统CAT的设计思路

自2014年开源以来,除了美团点评之外,CAT还在携程、陆金所、猎聘网、找钢网等多家互联网公司生产环境应用,项目的开源地址是http://github.com/dianping/cat。 背景介绍 CAT整个产品研发是从...

满小茂
2016/11/10
3
0
【推荐】大众点评Java开发实时应用监控平台-CAT

CAT介绍 CAT是基于Java开发的实时应用监控平台,包括实时应用监控,业务监控。 CAT作为大众点评网基础监控组件,它已经在中间件框架(MVC框架,RPC框架,数据库框架,缓存框架等)中得到广泛...

java技术栈
2017/11/14
0
0
大众点评运维架构详大揭秘!

今天分享专题大纲如图所示,从5个方面跟大家一起探讨: 1、点评运维团队的配置 目前我们运维分为4个组,相信跟大部分公司一样,运维团队分为:应用运维、系统运维、运维开发和监控运维,当然还...

让往事随风
2016/05/09
173
0
【干货】大众点评运维架构的图文详解

分享内容 今天分享专题大纲如图所示,从5个方面跟大家一起探讨: 1、点评运维团队的配置 目前我们运维分为4个组,相信跟大部分公司一样,运维团队分为:应用运维、系统运维、运维开发和监控运...

运维技术
2015/11/25
1K
1
大众点评开源分布式监控平台 CAT 深度剖析

一、CAT介绍 CAT系统原型和理念来源于eBay的CAL的系统,CAT系统第一代设计者吴其敏在eBay工作长达十几年,对CAL系统有深刻的理解。CAT不仅增强了CAL系统核心模型,还添加了更丰富的报表。自2...

王练
2016/10/31
17.9K
11

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周二乱弹 —— 他只能用这个办法劝你注意身体了

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @-冰冰棒- :#今日歌曲推荐# Kodaline《High Hopes》 《High Hopes》- Kodaline 手机党少年们想听歌,请使劲儿戳(这里) @xiaoshiyue :仙女...

小小编辑
13分钟前
460
12
Spring Boot Actuator 整合 Prometheus

简介 Spring Boot 自带监控功能 Actuator,可以帮助实现对程序内部运行情况监控,比如监控状况、Bean加载情况、环境变量、日志信息、线程信息等。这一节结合 Prometheus 、Grafana 来更加直观...

程序员果果
22分钟前
4
0
Linux文件查找命令详解

对于文件查找,我们最好用的还是属于find命令了,在说find命令之前,先把另外几个查找命令介绍一下。 目录 0x01 查询命令介绍 0x02 find命令介绍 0x01 查询命令介绍 在介绍之前,首先先了解一...

无心的梦呓
23分钟前
4
0
快速掌握的测试用例优先级划分方法

怎么样的设计才能算测试用例 引自:IEEE Standard 610 (1990): A set of test inputs, execution conditions, and expected results developed for a particular objective, such as to exe......

测者陈磊
26分钟前
3
0
[mycat]Attribute value "roadNodeId,version" of type NMTOKEN must be a name token

不能逗号配两个字段的主键 primaryKey="roadNodeId,version" Caused by: io.mycat.config.util.ConfigException: org.xml.sax.SAXParseException; lineNumber: 7; columnNumber: 105; Attrib......

Danni3
32分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部