来自北京快猫星云科技有限公司的联合创始人&CTO华明在开源中国社区做了一场视频直播,畅聊在AI大模型时代,服务可观测性如何实现智能化。
分享主要涉及几个主题:
- 可观测性离智能化远吗?
- 智能化的愿景、阶段
- 智能化的跳转和关键障碍
- Flashcat 的方法、实践和效果
- 常见问题和思考
首先,华明简介了可观测性的概念,包括三个支柱:指标、日志、链路,以及Opentelementry。
这个是老生常谈了,算是给观众扫盲。
华明认为可观测性实现智能化会分为两个阶段:从智能化增强观测到智能化闭环观测。我们正在向智能化增强观测迈进,而后文所分享的内容都主要围绕这个阶段展开,因为智能化闭环观测的时代,已经没有人类的位置(短期应该不会到来...)。
接下来,华明拆解了人类和观测系统交互的模型,以及AI所在的位置。智能化的过程就是AI逐步取代人类工作的过程。因此相关的周边系统、知识系统都需要面向AI设计。
基于这个模型,华明分享了两个在数据观测智能化领域比较有代表性的公司,分析了他们实现智能化的核心思路。这两家公司是 Resolve.ai 和 WisdomAI。
这两家公司指出了实现数据观测分析智能化的共同路径:
华明进一步总结了实现观测智能化需要解决的几个关键问题,即:AI如何理解你的系统、AI如何查询你的数据、简单动态的交互界面。
接下来华明分享了北京快猫星云科技有限公司基于开源夜莺实现的Flashcat观测系统,以及Flashcat解决以上观测智能化挑战的方法、思路、实践和效果。
华明认为目前的CMDB不足以构建起AI全面理解企业环境所需的全部元信息和知识图谱,还需要更多的信息。
AI查询企业数据的挑战也拆解为数据孤岛、标准化和海量数据处理瓶颈的三个问题。
接下来,华明详细介绍了Flashcat这个监控、可观测性的产品如何与 AI 整合的一些思路。Flashact的架构层次如下:
Flashcat 具备在各个环节丰富企业元信息的能力:
最终Flashcat可以建立起一个企业元信息的全景视图,这个系统在Flashcat中叫 灭火图。灭火图可以一览企业IT基础设施的所有资产及其健康度(健康则为绿色,异常则飘红-着火),并按照系统架构组织起来,非常方便人的查看和问题定位。灭火图的信息就是全面的企业IT元信息和知识图谱,非常适合作为AI的输入。
以下是Flashcat 灭火图的各种呈现效果,在灭火图里,企业的IT系统、服务模块,层次化的组织在一起,问题的查看和定位一目了然:
有了灭火图的信息,AI实际就掌握的企业全部的IT基础设施对象,以及相关的层级、关联、异常状态、相关的指标信息等,实际上就是企业IT基础设施的元信息+知识图谱。人观测起来已经很方便,作为AI的输入也非常有价值。
在解决AI如何查询企业数据的问题上,华明重点介绍了Flashcat的数据源集成能力,Flashcat已经可以集成市面上绝大多数常见的开源观测系统和公有云观测系统。只要简单的配置相应系统的地址,上层产品对这些系统的数据就可以随用随查。
Flashcat对这些集成的数据源进行了描述和封装,可以提供给大模型来理解和查询相关的数据。这个做法可以很轻量的解决企业内部数据孤岛的问题。
基于以上分析,华明总结了Flashcat 实现观测智能化的基本框架和思路:
Flashcat 准确实现智能根因定位的效果演示:
华明还演示了其他基于灭火图实现的AI分析功能,如智能巡检、智能预警,并在Flashcat的demo平台进行了实际操作。
最后华明回答了几个在可观测性智能化领域常见的几个问题:
高质量的数据输入是高质量价值输出的基础,针对数据质量的建设,华明认为在由人写代码的时代是无法避免的。
而数据孤岛问题的解决,华明认为有三种方法,可以视情况来选择:
针对数据建设和治理难以推动的问题,华明推荐两个方案,优先应由技术一把手来推进。
分享的最后,华明总结了可观测性实现智能化的要点:
以下是华明和Flashcat团队的联系方式,欢迎感兴趣的工程师进一步交流探讨。