加载中
论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

背景 在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用 ping 命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算...

08/29 12:04
33
如何发现及处理 MySQL 主从延迟问题

在 Percona MySQL 支持团队中,我们经常看到客户抱怨复制延迟的问题。当然,这对 MySQL 用户来说并不是什么新鲜事,多年来我们在 MySQL 性能博客上发表过一些关于这个主题的文章(过去有两篇...

07/24 15:20
102
Kubernetes OOM 和 CPU Throttling 问题

介绍 使用 Kubernetes 时,内存不足(OOM)错误和 CPU 限制(Throttling)是云应用程序中资源处理的主要难题。为什么呢? 云应用程序中的 CPU 和内存要求变得越来越重要,因为它们与您的云成...

07/21 16:42
145
开源的Datadog?可观测性平台SigNoz是否名副其实?

SigNoz号称自己是开源领域的Datadog,基于OpenTelemetry做了一套可观测性方案。夜莺从V6版本开始,也希望做全栈可观测性方案,巧了,大家目标一致,今天我们一起来对SigNoz做个初步了解,看看...

07/20 16:44
227
监控系统自监控怎么做?

问题 监控系统用于监控其他的系统、基础设施,绝对是 P0 级的服务,那监控系统的自监控应该怎么做呢?如果自己监控自己,有些组件挂掉了难免循环依赖,如果单独搞一套新的监控系统来监控当前...

07/10 16:04
110
可观测性是什么? 入门指南

如果您之前对可观测性重要性,益处,以及组成不甚了解,本文是一个合适的指南手册。 什么是可观测性? 可观测性被定义为根据系统产生的输出数据(如日志,指标和链路追踪)来衡量当前系统运行...

06/28 19:42
206
如何监控文件变化,比如密码修改导致 shadow 文件变化

原始需求是如果系统的密码被修改,或者创建了新用户,就告警出来。本质上,只需要监控 /etc/shadow 文件变化即可。但是在指标监控体系里,这个事情就比较棘手,只能把文件的 mtime 作为指标的...

06/25 20:05
110
面向故障处理的可观测性体系建设

笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个...

06/19 10:01
3K
机器硬件监控,最简单的方案,没有之一

之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞...

06/14 17:26
163
core dump 路径定义以及监控

Core Dump 是什么? Core Dump 是指进程异常退出时,操作系统将进程的内存状态保存到文件中,这个文件就是 Core Dump 文件,中文一般翻译为“核心转储”,哈,看起来还不如不翻译。 我们可以...

06/13 15:10
88
如何解决系统报错:nf_conntrack: table full, dropping packets

问题 在系统日志中(/var/log/messages),有时会看到大面积的下面的报错: nf_conntrack: table full, dropping packet 这说明系统接到了大量的连接请求,但是系统的连接跟踪表已经满了,无...

06/12 21:50
72
太卷了,史上最简单的监控系统 catpaw 简介

指标监控的痛点 当下比较流行的监控系统,比如 Prometheus、Nightingale、VictoriaMetrics,都是基于数值型指标的监控系统,这类监控系统的痛点在于:告警的时候只能拿到异常值,以及有限的几...

06/08 10:29
7.1K
SRE心里话:要求100%服务可用性就是老板的无知

《SRE Google 运维解密》第3章讲了拥抱风险,一些关键的观点,在这里与大家分享,融入了我自己的一些理解,希望对你有些帮助。 服务可用性必须100%?其实完全没必要 一个服务客户的产品,不需...

05/25 12:46
95
SRE Google 运维解密读书笔记一:SRE 方法论概述

SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论。帮大家把书读薄,当然,也加入了一些我...

05/17 14:24
91
玩转Zabbix智能告警:降噪、排班、认领、升级、IM协同

Zabbix作为一款流行的企业级监控工具,可以监控各种网络设备和服务的状态,并提供强大的告警功能,能够在出现异常情况时及时通知管理员。以下是Zabbix的一些特点: 支持多种监控方式,包括S...

05/16 11:44
190
可观测性三支柱?远不止此!

日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽。by ...

05/16 10:29
117
LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

在 LinkedIn,站点工程师喜欢自动化各种基础设施层面的运营任务,以最小化手动干预,并且可以扩展得很好并易于操作。某些自动化是通过按需作业执行来完成的。 LinkedIn工程师已经使用Salt超过...

04/24 17:53
722
治理告警风暴,告警降噪的一些典型手段

很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生...

04/19 10:20
5.8K
新东方老师教你使用 Telegraf + Loki + Nightingale 实现硬件监控

本期新东方的技术朋友(董召宁&齐晨@新东方)分享了一个硬件监控的方案,使用 Telegraf 做数据采集,使用 Loki 做日志存储,使用 Nightingale 做告警规则配置,玩的挺花的,我们一起来学习一下...

04/13 08:48
463

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部