直达原文:【报告解读】IT服务管理中的人工智能应用
ITSM智能运维的未来,是智能化与自动化的深度集成,AI与大模型的结合正推动行业向更高效、智能决策与自动化迈进。IT领导者需紧跟趋势,合理规划AI策略,优化ITSM平台,选择合适工具,平衡成本与功能,同时关注数据质量与安全,以应对挑战,把握智能运维新时代的机遇。AI驱动的运维,正为ITSM开启无限可能,引领企业服务管理的智能化新篇章。
涉及关键词:ITSM、大模型、智能服务台
全文共计3360字,预计阅读时间10min。
ITSM智能应用发展背景
在IT服务管理(ITSM)领域,人工智能(AI)正逐步成为优化支持流程、提升效率与用户体验的关键驱动力。针对ITSM中的智能应用,Gartner发布了《Market Guide for Artificial Intelligence Applications in IT Service Management》的报告,对于目前市场上的ITSM智能实践进行了分析,本篇文章将结合国内的ITSM实践对该报告进行解读。
近几年来,ITSM工具建设上一直有基于规则的知识推荐和自动化执行的实践,同时也通过基于知识库和问答规则的虚拟客服来替代部分IT服务台的人工工作,但这只是为了转移简单的请求和问题。
2022 年 11 月,OpenAI 的 ChatGPT 向公众开放,人们对生成式 AI 功能的关注和兴趣显著增加。随着生成式人工智能(GenAI)的兴起,ITSM平台已不再局限于传统聊天机器人的简单交互,而是迈向更为智能化的服务交付模式。结合运维大模型的应用,ITSM领域的智能应用大致如下:
ITSM中的AI应用
AITSM的四个关键领域
AITSM(Artificial Intelligence in IT Service Management)概念关注于四个核心领域,旨在通过人工智能、自动化和大数据的运用优化IT服务管理流程,提高运维效率并减少错误。这四个领域具体包括:
- 上下文(Context):涉及结构化和非结构化数据,帮助人和AI系统理解情境,做出决策。这包括用户角色信息、业务活动、服务配置管理、已知错误历史等,是决策基础数据。
- 建议(Recommendation):基于上下文分析,提供进一步信息,加速人员响应。涉及影响评估、可行性分析、问题根源、事件关系检测、语言处理、翻译,自动生成内容等,辅助快速准确建议。
- 操作(Action):在ITSM工具中自动化部分流程。例如虚拟代理、知识库更新,基于AI指导响应、分配、升级、自动化任务,直接执行,简化操作。
- 接口(Interface)与其他工具自动化、部署、整改活动的连接。AIOps等外部解决方案集成,通过API与ITOM集成,如事件管理、监控,或直接ITSM工具本身,提供自动化功能。
这四个领域互相支持,从理解情境、提出建议到执行,最后到操作,以及与其他工具集成,形成完整的ITSM实践链条。每个环节都为运维带来效率提升,但也需考虑数据质量和工具成熟度,确保实用性和风险控制。
ITSM AI用例分析矩阵
AITSM的四个关键领域主要关注数据(上下文)、建议(辅助决策)、操作(ITSM工具内部操作的自动化)、接口(调用外部工具做全链条的自动化),落实到具体实践用例,Gartner通过《Use-Case Prism: Artificial Intelligence for IT Service Desk》的报告从商业价值和可行性两个维度对主要的AITSM场景用例进行分类说明,具体如下图:
场景列举如下:
- 智能客服助手: 虚拟合了AI的虚拟支持代理,能够通过自然语言处理日常的查询和请求,为用户提供即时帮助,显著降低了人工介入需求,提升了响应速度和员工的工作效率。它不仅解答常见问题,还能执行基本操作,比如重置密码重置、软件部署,促进自助服务效率。
- 终端体验响应:利用用户体验监控,识别终端问题,即时反馈IT服务性能,减少中断,提升员工满意度,通过自动诊断和快速修复,提升生产率。
- 公域知识发现:从外部知识源(包括大型语言模型 (LLM) 中的训练数据)检索公开可用信息的知识检索。这些信息将交付给 ITSM 平台、专家和最终用户消费者。
- 普遍知识发现:结合公共知识源(包括 LLM 中的训练数据)对有关内部 IT 服务的答案进行知识检索。这涉及采购特定于领域的 LLM,或使用检索增强生成 (RAG) 将私有和专有企业信息合并到公共 LLM 请求会话中。
- 知识创造:从系统工单中的对话和历史案例等来源识别建议的解决方案和成功的解决方案,并在 ITSM 平台中创建相关的知识文章。
- 专家匹配 - 智能调度 - 利用AI,根据技能、经验和过往表现数据,快速识别适合的专家,智能分派工单,提高处理事件和问题解决速度。此功能加强协作支持中心,跨部门合作,提升非IT专家响应。
- 个性化通知:根据工单信息和处理过程中的对话信息基于AI生成专门的通知文本,例如对传入请求的响应以及更改或重大事件的警报。
- 事件智能路由 - 引入工单自动化机制,根据影响、紧急程度以及用户情绪识别,AI辅助决定优先级,智能识别事件,更快地将问题转至专家,减少了人工干预,提升了响应速度。此功能还确保了对重大事件的快速管理,减轻服务中断。
- 智能升级:预测可能不符合 SLA 或触发投诉升级的案例,并在传统触发器(如 SLA 计时器)之前上报给高级专家,从而采取预防措施。
- 问题聚类分析:聚类 - AI驱动的聚类技术,识别相关事件模式,将数据分组,揭示新见解,实现主动问题管理。它自动识别重复,优化知识匹配,促进根本原因分析,提前发现潜在问题。
- 事件自动分类 - AI辅助:根据固定和动态信息,AI分类事件,自动化标签和元数据,提升事件处理的准确度,减少人工分类工作,便于更高效自动化。
- 情感识别 - 员工体验 - AI辅助情绪分析,通过AI检测员工与服务台交流时的情绪状态,预警低满意度,提前改进体验。它帮助提升员工互动质量,增强员工感知。
- 基于自然语言自动创建工单:从自然对话中识别事件和请求,并在 ITSM 平台中创建关联的工单。
- 内容自动生成 - 案例总结:使用自然语言技术对事件或请求描述进行改写和总结,以便工程师可以更好地理解它,并在分类/分类用例中用于分类和标记。也适用于呼叫后工作日志摘要。
- 风险预测 - 变更分析:通过历史分析和AI技术,智能风险咨询预测变更的潜在影响,帮助I&O领导在实施前做出更明智决策,减少失败风险。它通过数据驱动的洞察,提升变更管理的自信,促进自动化流程优化。
- 流程挖掘 - 对 ITSM 流程进行流程挖掘,以识别瓶颈和浪费,并优化 ITSM 平台中的工作流程。
其中高价值、高可行性的AI用例为智能客服助手、终端体验响应、公共知识发现和个性化通知。
裴丹教授在提出了大模型在运维领域落地的四阶段观点,具体如下:
- OpsLLM简单运用:包括开源大模型底座+公网运维知识微调+私域运维知识微调和提问引导、为告警管理提供意图识别和总结能力、根据历史工单给出相似提示和告警摘要;
- 需要开发的OpsLLM:Lang2Template调用API和SQL等、利用langchain/APIchain进行编排将自然语言转换成prompt template并通过agent拆解调用各种运维工具;
- 多模态的运维基模和图谱:统一的指标&日志&调用链&告警模型、知识图谱
- 最终整合形态:由OpsLLM驱动多模态基模,最终解决质量、效率、成本、安全等运维场景。
结合裴丹教授的四阶段论和Gartner的AI用例,看国内外厂商如NewRelic、Pagerduty的实践,可以看到,现有的大模型落地主要包括知识训练与应用(外挂知识库问答)、智能推理(处理建议、提炼总结)。
AI在ITSM应用中的难点和建议
除了AI用例和实现场景的识别外,考虑ITSM的智能应用我们仍然需要克服一些难点并在技术选型和场景选择上做平衡,具体难点如下:
- 数据质量:运维高质量训练集稀缺,特定领域数据难以获取,ITSM本身的数据是否足够丰富。
- 部署成本:模型训练、维护开销高,资源消耗大。
- 解释性与安全:黑盒问题,信任度低,合规难保障。
- 多模态数据处理:非结构化、半结构化信息融合难。
- 周边工具开放性:告警、cmdb、监控、自动化等工具是否有足够丰富的对外接口。
运维部门在选择解决方案时面临复杂性,需平衡成本与功能、数据隐私和安全,考虑运维工具体系的整合程度,大模型(公工大模型或者私有化部署)与现有平台的集成。根据自身工具成熟度和组织准备情况来确定高价值且可行的AI应用,并构建包含实施时间表的路线图。
参考链接: