导读:近日,数列科技 CTO 陆学慧参加 ArchSummit 全球架构师峰会,并进行了题为《0 性能故障是如何做到的:高可用性能领域的 DevHA 实践》的主题演讲,详细介绍了 0 性能故障的实践经验及对...
一分钟精华速览 酷家乐开发魔方语言的目的是解决其2B SaaS系统在复杂微服务架构下的故障定位难题,以提升系统稳定性并加速故障恢复。由于原监控工具操作复杂,需要人工逐项点击且依赖经验,导...
一分钟精华速览 在双减政策影响下,新东方面临业务缩减和资源紧张的局面,迫切需要技术调整和优化以应对成本压力并提高效率。面对人手减少、技术标准化不足和技术栈复杂等挑战,公司制定了通...
一分钟精华速览 在月活超千万的大规模业务背景下,货拉拉遭遇了多云环境下的监控碎片化、规划无序等问题。为了应对这些挑战,货拉拉开发了一站式监控平台——Monitor。该平台的部署有效地实现...
一分钟精华速览 超 30 位专家共创,近 20 篇最佳实践,共计 15 万字。 联合所有编写成员正式发布,限量赠送,即日起申领。(方式见文末) 为什么整理行业最佳实践? 大量实践证明,分布式系统...
一分钟精华速览 面对业务侧和架构侧的双重“降本+提效”需求,转转结合自家业务的特性进行二次开发,构建出一套集业务服务、架构中间件、运维资源于一体的立体式监控平台。转转借此平台实现了...
一分钟精华速览 B 站的业务规模和用户群体不断扩大,对于服务的稳定性和可用性的要求也日益增高。这就需要 B 站的监控告警系统能够及时、准确地发现和定位问题,以便尽快解决,维护好用户的使...
一分钟精华速览 如何全面把握系统现状,以便在关键时刻做出明智的决策?这是很多负责全局稳定性的管理者深感关切的问题。基于这一背景,同时也为了寻求提升研发工作效率提升,去哪儿网构建了...
一分钟精华速览 在当前阶段,可观测性的建设并没有统一的执行路径。每家公司会根据自身的业务需求、运营模式和规模,形成一套独特的实践方案。为了应对业务规模的扩大和需求的变化,可观测团...
一分钟精华速览 底层技术是系统稳定运行的基石,往往牵一发而动全身。通过底层技术的优化,有效地管理和减少代码量,能极大提升系统的运行效率。去哪儿网作为业内较早落地“代码瘦身”的企业...
一分钟精华速览 去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量,但在故障数据方面却稍显不足——订单类故障平均发现时间长达 4 分钟,仅有 20%的订单类...
一分钟精华速览 分布式链路追踪系统在企业的APM体系中扮演着重要的角色。本文分享了去哪儿旅行构建分布式链路追踪系统的实践经验。从APM整体架构设计入手,讲述了日志收集、Kafka传输和Flink...
一分钟精华速览 “只知道系统有问题,但是找不到问题到底出在哪里”,这几乎是大家都面临过、或正在面临的问题。用户在投诉,但是我的指标都是正常的,到底是哪一环出问题了? 本文详细介绍了...
一分钟精华速览 SRE 团队每天面临着不可控的各类风险和重复发生的琐事,故障时疲于奔命忙于救火。作为技术管理者,你一直担心这些琐事会像滚雪球一样,越来越多地、无止尽地消耗你的团队,进...
一分钟精华速览 本文概述了挚文集团(陌陌和探探母公司)在微服务架构下解决故障定位问题中遇到的痛点、解决方案以及取得的效果。通过构建统一可观测平台,实现了故障快速定位,大幅提升了问...
一分钟精华速览 互联网平台以业务为中心,以用户为中心,平台的功能服务、质量和用户体验等是关键的目标,仅仅关注后台系统的可用性是不够的,以传统运维的视角来解决故障、做监控会比较被动...
一分钟精华速览 全栈可观测是一种更全面、更综合和更深入的观测能力,能协助全面了解和监测系统的各个层面和组件,它不仅仅是一个技术上的概念,更多地是技术与业务的结合。在“以业务为导向...
一分钟精华速览 每一位被故障折磨的稳定性负责人,都或多或少面临自证的困境:如何证明今年的稳定性工作是出色的?在无法完全避免故障发生的前提下,如何证明稳定性保障工作的价值?在团队和...
一分钟精华速览 中国信通院最新的调查报告显示,越来越多企业正在尝试通过混沌工程来提高系统稳定性。实验的不同阶段,大家面临着不同的问题,我们尝试从混沌工程推进的不同角度,为大家提供...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复