CIKM2022|蚂蚁集团智能策略论文入选best paper candidate

2022/11/21 19:39
阅读数 310

在机器学习在工业届的应用日益增多的今天,模型的可解释以及公平稳定,益增多的一个需求,如何让在有业务约束的情况下产出可解释的规则,一个重要的研究方向。蚂蚁集团机器智能团队的论文被CIKM2022数据挖掘知名国际会议)录用,并入选applied best paper candidate。该论文研究了如何在有约束的情况下,通过融合特定人工先验提升规则学习效果。


An Adaptive Framework for Confidence-constraint Rule 

Set Learning Algorithm in Large Dataset


论文简介


决策规则以其强可解释性和高效性成功地应用于各种分类应用中。在许多实际工业场景中,特别是在金融领域,往往会遇到在某些约束下生成规则集的需求。举例而言,有些场景倾向于用规则集合召回更多的目标样本,进而不需要规则集合的置信度很高(比如置信度>0.2);反之,另外一些场景对于规则集合置信度有很高的要求(比如置信度>0.99)。


然而,以往的规则学习方法大多只强调规则集对于样本分类的准确性,而没有考虑到这些约束。本文提出了一个约束自适应的规则集学习框架(CRSL),该框架由三个主要组件组成,即规则挖掘器、规则排序器和规则子集选择器。CRSL不仅考虑了规则集的置信度和覆盖率之间的权衡,而且还考虑了可解释性和性能之间的权衡。


在benchmark数据和大规模工业数据上的实验表明,与其他规则集学习方法相比,该方法能够获得更好的性能和具有竞争力的解释性。CRSL框架下比较重要的两个模块是规则挖掘模块和规则子集选择模块,在这两个模块中均采用蚂蚁自研的约束自适应规则学习算法。其中,规则挖掘模块使用的是约束自适应的规则生成算法(CARM),规则组合模块是约束自适应的贝叶斯规则组合方法(CBRS)。


整体框架


CRSL的整体框架如图1所示,下面分别介绍三个主要模块的作用。首先,规则挖掘的目标是生成丰富的候选规则,然而,以往的方法很少考虑约束条件,直接应用于约束自适应规则学习问题可能会导致性能下降。为此,本文提出了一种约束感知方法来构造决策树,在树中强调约束条件的重要性,并获得更好的候选规则。


然后,在规则挖掘的模块中可能会获得过多的候选规则,在本文的框架中引入一个规则排序(过滤)模块,从而简化候选规则集,达到更好的效率。具体来说,本文在这个模块中考虑了性能、冗余和稳定性,设计了三个过滤指标,并将它们结合起来对候选规则进行过滤。最后,为了获得最终的规则集,本文在贝叶斯范式下进行规则组合的优化选择。针对这一问题,提出了一种约束自适应贝叶斯预测模型和一种加速搜索过程的精细模式。

图1 CRSL的整体框架


规则挖掘


CARM算法是在传统决策树算法上的一个优化。实现这个优化是因为传统决策树分裂时只分裂前后节点的纯度,目的是最大化分类准确率;而实际的业务场景对从决策树中抽取出的规则本身是存在约束的,比如规则的准确率、金额不良率要大于某一个阈值。CARM在树分裂的过程中,将纯度和约束适应度同时作为决策树算法的分裂准则。一方面,最大化纯度使得决策树每个节点分裂后的样本具有较高的一致性,进而保证决策规则的分类性能;另一方面,最大化约束适应度使得决策规则对应的样本尽量满足业务约束。


传统决策树在分裂时只考虑左右孩子节点的纯度作为分裂的准则如下公式:



其中s表示特征,t表示特征分裂点,表示分裂后的左孩子节点,表示分裂后的右孩子节点,,分别表示父节点和左右孩子节点的纯度函数。

而CARM算法,在考虑纯度的同时考虑了约束适应度这个指标。约束适应度这个指标表示分裂结果对于约束的适应程度。以准确率约束为例,分裂后的节点的约束适应度定义如下,其中表示准确率约束阈值:



分裂行为的约束适应度定义为左右节点约束适应度的最大值:



最终的分裂准则同时考虑纯度和约束适应度两个维度的因素,通过超参数来平衡两部分因素的权重:



规则排序


规则排序模块的初衷是为了精简规则挖掘模块产出的规则候选集,进而提升后续规则子集选择模块的效率。本文在这个环节采用三种过滤器来实现这个目的,包括性能过滤器和冗余过滤器和稳定性过滤器。


对于性能过滤器,本文采用的是加权相对精度(WRAcc)指标。这个指标WRAcc的第一个因子是所有样本中被覆盖样本的相对比率。WRAcc的第二个因子是规则的置信度与原始训练集的正确率之间的差异,它代表了规则命中样本和原始样本的分布异常。性能过滤器倾向于选择在信心和覆盖率方面进行适度权衡的规则。



对于冗余过滤器,本文提出了平均冗余度的概念来评估每个规则的冗余度。首先,计算每个样本覆盖的规则数量直观地说,对于一个样本,如果它被几条规则(甚至一条规则)覆盖,那么这几条规则对于这个样本的召回更重要,那么的值是很小的。相反,如果一个样本被太多的规则命中,那么这些规则对于这个样本的召回来说就不那么重要甚至是多余的,那么的值就会很大。此外,本文定义每个规则的平均冗余评分,通过该规则对其覆盖样本值求平均值计算得到,如下公式:



对于稳定性过滤器,本文的设计初衷是为了防止规则在训练数据上过拟合。为此,本文提出了一种稳定性过滤器,通过比较规则在训练集和验证集上的性能的差异性来实现。如果规则在两个数据集的性能差异较大,则该规则的稳定性较差。这里本文仍然使用加权相对精度(WRAcc)来评估规则性能,并将规则在训练集和验证集上的性能差距定义为稳定性评分



规则组合


本文提出了一种约束自适应贝叶斯预测模型来选择子集规则。该贝叶斯预测模型提供了一个先验分布,其中包括规则数量的分布、规则大小以及在给定规则大小的情况下对规则的选择。这些先验分布使得模型得到的规则更少、更短,从而获得了更高的可解释性。此外,还设计了约束自适应似然来选择更好的规则,满足置信度约束并实现更大的覆盖率。该贝叶斯预测模型的目标是从后验分布中寻找更好的规则集。


先验概率


首先,我们来讨论一下先验概率。先验中有三项,第一个项是截断泊松分布(参数)控制从候选规则$rc$中选择的规则的数量。第二项是截断泊松分布(参数)表示每个规则中的条件数量第三项是均匀分布概率,表示大小为的规则的随机选择。先验条件如下:



有了这些先验,模型更倾向于更少更短的规则,这更容易理解。另外,如果用户不关心规则的数量和长度,这个先验中的三个项都可以选择使用均匀分布。


约束自适应似然


被规则集命中的目标样本符合具有参数的伯努利分布,而没有被规则集命中的目标符合具有参数的伯努利分布。定义表示的规则集分类结果。伯努利分布为:



其中,从beta先验值中提取:



训练数据的似然可以表示为:



为了确保似然满足置信度约束的问题设置,需要满足几个条件。例如,当规则集召回固定数量的样本时,TP与似然正相关,当规则集召回固定数量的样本时,TN与似然正相关。这两个条件可以通过设置beta分布的参数来实现。


此外,考虑到置信度约束设定下的规则集覆盖率目标与TP直接相关,TP对似然的正向影响应显著高于其他三个因素。为解决这一问题,此处我们提出采用加权似然法,并设置:



此外,本文提出了一个约束惩罚项,它乘以加权似然如果规则集的置信度违背了置信度约束,则惩罚项设置为0,即:



通过将加权似然约束惩罚相乘,本文定义约束自适应似然为:



本文所定义问题的最终目标是通过求解MAP模型找到一个最优规则集等价于最大化:



该约束自适应MAP模型既实现了置信度约束问题的可解释性,又实现了性能上的考量。


搜索过程


本文使用MCMC(马尔可夫链蒙特卡洛)方法对规则集合进行搜索。每次迭代时,通过添加、删除或替换(先删除然后添加)规则来选择一个相邻规则集。我们在每一步评估每个新规则表的后验概率。为了加快搜索速度,我们采用随机抽样和启发式搜索相结合的方法来处理探索和开发的权衡。首先,添加、删除或交换操作的机会是相等的。然而,要添加、删除或替换哪些规则的选择是不一致的。具体地说,我们评估将要添加、删除或替换的每个规则的单个贡献。自然,贡献较大的规则更有可能被添加,而贡献较小的规则更有可能被删除或替换。


  部署


本文提出的CRSL框架正是基于支付宝平台对约束自适应规则学习能力的需求而产生的。该框架已被部署到一个端到端的欺诈决策中心,帮助风险分析师在大规模的风险管理相关业务场景中实现精确的、自适应的规则解决方案。决策中心的工作流程如图2所示。决策中心设计并实现了一个交互界面,以支持平台与具有定制需求或专家经验的风险分析人员之间的交互,以便进一步调整规则学习的结果。该框架部署在与决策服务器和数据库交互的算法平台上。风险分析师将训练数据和置信度约束输入到决策中心,决策中心输出满足约束的一组规则。生成的规则经过风险分析人员的评估和调整后部署在支付宝平台上。


图2 欺诈决策中心的工作流


表1说明了基于收集到的跟踪日志的总的规则集训练任务的统计数据。自2020年12月以来,超过5000个规则学习任务被调用,产生的规则集被用于60多个风险分析场景,覆盖率提升在3%到15%之间。


表1 欺诈决策中心的规则学习任务统计


综上所述,这个自适应框架和决策中心扩展了支付宝平台的风控能力,使其更加精细化、高效和多样化。

本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部