让机器像人一样学会理解并做出回答一直是 AI 走向规模化应用的大难题,相比图像、语音领域,自然语言处理领域的发展相对来说比较缓慢。究其原因,在于自然语言是高度抽象化的产物,其语义信息非常丰富,很难做到精准的理解与回应。
SQuAD 2.0 (Stanford Question Answering Dataset 2.0) 是认知智能行业内公认的机器阅读理解领域顶级水平测试,通过吸收来自维基百科的大量数据,构建了一个包含十多万问题的大规模机器阅读理解数据集。这项由斯坦福大学发起的机器阅读理解挑战赛,吸引了全世界致力于人工智能研究的团队参与攻坚“打榜”。近日,来自中国的蚂蚁支小宝技术团队登顶 SQuAD 2.0 排行榜,并刷新了榜单纪录,模型分数超过真人的表现。
支小宝资深技术专家陆鑫表示,此次榜单刷新背后的意义在于该项技术可以在蚂蚁的业务场景上做一些赋能,通过知识点的挖掘和生产,大幅度提高生产效率,部分程度上已经可以代替人在业务上发挥作用。
另一方面,模型分数超过真人表现也并不意味着机器可以在专业的、完全 Open 的领域代替人工,仍旧有很多定制化的工作要做。以支小宝所在的金融领域为例,如果要做到完全开放式的理财问答,还有很多技术能力需要补充,以辅助自然语言理解,去完成一个全能的问答机器人的交付。
为什么会选择 SQuAD 2.0 榜单去做技术攻坚?支小宝算法负责人董扬解释道:
最优先考虑的点是 SQuAD 2.0 的问题和支小宝业务本身有比较大的相似性;第二看榜单的参赛队伍的数量和质量,看业界的先进技术能力是否有所体现;第三是看中举办单位的影响力和榜单的权威性。实际上除了 SQuAD 2.0,国内国外的相关榜单以及 NLP 领域的综合评测、比赛都会作为参考。
陆鑫笑言:去参加这些比赛,都是用业务工作之外的余力在做,就好像“用火炉烧水的余温顺便烤个白薯”,在用技术能力服务业务的同时,把模型针对这些比赛做相应的调优。
这个“烤白薯的余温”开始于 2020 年下半年,这半年时间除了适配业务做了很多数据训练的工作以外,支小宝技术团队也花了很多时间解决机器阅读的几大难题,具体手法有:
-
在做 text span 预测的时候,对多个 start-end pair 进行排序是影响最终结果的关键点,需要加入很多 rank 的逻辑和特征;
-
通过一些巧妙设计的长短文本的粗排和精排算法来提前召回段落,解决过长文档信息冗余,过短文档信息信息不足的问题;
-
数据集噪声的干扰,通过一些增强鲁棒性的训练方法来解决,如文本对抗训练;
-
数据方面,因为比赛的数据集体量较小,所以尝试了多种语料增广方法包括回译、EDA、CMRC 和 DRCD 数据集增量训练等;
-
另外还引入 pretrained embedding 作为整个模型的底座,以及 automl 来调整模型结构和超参搜索。
此外,由于支小宝所在的金融领域对合规、安全性要求高,这种行业特性也对机器阅读理解技术带来了不一样的挑战。支小宝技术团队在
训练机器阅读理解的过程中,在输入的部分选择的都是专业的财经资料,输出部分的内容在上线之前也会有合规、审核的团队去把关,确保交付给用户的部分都能合规、安全并且符合时效性。
董扬介绍道,支小宝是一个需求模糊、供给有限的产品,早期的支小宝知识库非常有限,采用的也都是专家撰写的方式,因为金融行业场景的专业性及合规方面的要求,专家人工撰写知识库的周期相对较长,每个月从生产、审核到上线只能产出百余条的数量级。
而另一方面,支小宝的庞大用户体量导致当用户问及理财、保险问题时,早期的支小宝无法很好地回答。再加上金融行业的知识点并非静态存在,如果纯靠人工专家产出知识库,其生产效率和时效性都不能满足业务的需求。
在这样的业务痛点之下,支小宝技术团队通过机器阅读理解技术,在给模型投喂大量文章和用户实时性问题的同时,训练其提出相应的答案,交给专家审核,在大大提升效率的同时,线上用户也感觉到了支小宝变聪明了。
相比于同类型技术,除了上文提到的机器阅读本身难题的创新解法,支小宝技术团队还在人机协同方面有显著的创新成果。通过利用算法挖掘用户和理财师的“人人对话”场景,可以自动生成“人机对话”的剧本,把人人对话场景的经验移植到人机场景之下,使得机器人也可以承接更多人人对话的需求,扩大了应用范围。
陆鑫表示,目前支小宝的技术团队规模在30人左右,其中有一半是算法的同学,除了NLP、对话理解等重点方向,其他头部的算法支小宝团队都会有参与并产出相关论文。团队此前的公司和学历背景方面,可以说远高于业界的一些技术团队综合水平,其中清北学历、海外高校背景比比皆是,博士比例占到30%,985硕士占比在95%以上。
也正是这样对热爱学习、热爱技术的团队,才做出了这样受用户喜爱、受权威榜单认可的成绩。
目前机器阅读理解技术在支小宝业务场景中得到了广泛的应用,其已经产出了一万多个知识点,覆盖了超过300个产品,用户的直观感受就是支小宝变聪明了,也实现了支小宝团队对用户“有问必答,有答必对”的价值。
董扬表示,从数据上看,在对话结构学习方面,支小宝技术团队发表了相关论文,挖掘了几十个对话剧本,在人机对话里提升了服务半径,点击率提升了30%左右;在个性化、可解释的推荐理由方面,对比普通的推荐点击率提升在50%左右;从用户体验上看,用户对回答的准确性满意度持续提升,在主动服务、推荐上的点击转化率也有所提升,真正给用户带来了金融服务的价值。
陆鑫补充道,该项技术也运用到了理财师的领域上,用机器的方式帮助理财师解决掉了重复的问答,大幅提升了理财师的工作效率。目前有大概20%左右的用户问题用到了相应的技术去辅助理财师迅速地回答用户提问。
当前,机器阅读已经在往多轮对话场景、跨文档答案获取、更复杂的推理几个方面发展,也有相应的 QUAC、CoQA、DROP、HotpotQA 等相应的数据集合比赛。在技术上,支小宝技术团队的规划:
陆鑫表示,今年会让支小宝进入更多的用户服务场景及决策路径里,及时地为用户提供理财服务。与此同时,支小宝将把这些技术能力开放给机构,用目前的技术成果和先进模型帮助机构给用户提供相应服务。这本身也对支小宝技术提出了新的挑战,也将倒逼支小宝技术团队持续打磨内功,迎接更多更复杂的业务场景和规模化的挑战。
本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。