交易系统异常检测业务背景
今天分享OpenMLDB在aiops领域应用案例。交易系统作为大部分企业的核心系统,为了保证其持续稳定运行,其健康程度成为了运维健康的核心指标,今天主要分享通过交易成功率和tps两个指标来自动检测交易系统是否异常,指标具体定义
- 交易成功率,统计每10秒为一个周期的交易成功的比例
- tps,统计每10秒的平均tps
交易系统异常检测业务架构
整个检测步骤分为
- 交易系统周期(每10s)产生tps交易量和成功率统计数据
- 统计数据写入数据库,然后做一次算法模型推理,存入推理结果
- 完成推理后,进行一次规则判断决策是否进行报警
交易系统异常检测系如何处理系统抖动问题
因为交易系统,可能因为各种问题出现抖动,哪些抖动需要运维人员感知,哪些抖动可以让系统吞掉,需要有一定灵活性来解决这些问题,而整个异常检测系统是从以下两个方面解决这些问题
- 多种算法联合推理,每个算法都进行推理得出结果做加权处理,权重越大,可行度越高
- 人肉制定决策规则,根据人肉经验判断是否告警,比如查看最近6次推理结果,如果6次中有5次权重都大于某个值则触发报警
基于OpenMLDB的交易异常检测的系统架构
面向交易系统异常检测架构挑战
- 高实时性,需要异常检测快速决策出是否有异常,降低损失
- 算法模型自由,让数据科学家可以充分发挥数据价值,提升决策效率,这个也是OpenMLDB核心优势,让开发一个机器学习应用非常低门槛,达到模型自由
- 系统容量,能够支持每年10倍监控对象容量增长
关于OpenMLDB
OpenMLDB是一个面向机器学习应用提供正确、高效数据供给的开源数据库。除了超过10倍的机器学习数据开发效率的提升,OpenMLDB也提供了统一的计算与存储引擎减少开发运维的复杂性与总体成本。
欢迎大家参与到https://github.com/4paradigm/OpenMLDB 社区中