联邦学习:保护隐私安全以及克服数据孤岛的机器学习

2021/09/13 11:12
阅读数 32

中国 KubeCon + CloudNativeCon + Open Source Summit 虚拟大会

12 月 9 日至 10 日

https://www.lfasiallc.com/kubecon-cloudnativecon-open-source-summit-china/


诚意邀您成为赞助商




题图摄于北京北三环


(本文作者系 VMware 中国研发云原生实验室架构师,联邦学习 KubeFATE / FATE 开源项目维护者和贡献者。)


相关信息:招聘云原生工程师


需要加入KubeFATE开源项目讨论群的同学,请关注亨利笔记公众号后回复 “kubefate” 即可。


邦学习

人工智能的成功在很大程度上取决于用于训练有效预测模型数据的数量和质量。在企业内部,数据通常作为孤立的数据孤岛被储存在服务器中。同时,商业竞争或隐私保护法律的限制,企业之间不能直接共享数据。

基于这些原因,许多企业或部门的数据样本会很有限或者数据质量较差,因此阻碍了训练有价值的机器学习模型。联邦学习是最有前途的机器学习技术之一,可帮助克服数据孤岛,加强数据隐私和安全的同时仍遵守例如GDPR等法律法规。


概念和目录

以下是联邦学习的主要特征:

  1. 来自各方的数据存储在本地,以确保数据隐私和遵守法律法规。

  2. 多方贡献数据以开发一个他们可以互惠互利的全局模型。

  3. 联邦学习中的所有参与方的地位都是对等的。

  4. 联邦学习的建模性能与在用户手动对齐数据或数据特征对齐的情况下所聚合获得的模型结果相同或略微不同。

想象一下,有两个不同的企业——A 和 B——每个都有自己独特的数据。由于《数据安全法》、GDPR等法律法规等限制,这两家企业不能简单地合并他们的数据。联邦学习可以通过在加密机制下交换参数来创建全局模型,同时确保遵守数据隐私法律。该模型的最佳性能可以媲美通过聚合两家企业数据构建的模型。不同之处在于数据在全局模型的训练过程中不会移动。换句话说,与传统机器学习相比,联邦学习不会从其他企业处收集数据。每个企业都将本地数据训练成各自数据中心的部分模型。

实际上,孤立数据具有不同的分布类型。根据特征和样本数据空间的不同,联邦学习可以分为横向联邦学习纵向联邦学习

    横向联邦学习也称为“样本区分联邦学习”或“同构联邦学习”,这意味着数据集共享相同的特征空间但样本不同。通过横向联邦学习,我们可以使用相对较小或部分数据集而不是大数据集来提高训练模型的性能。

资料来源:杨强,刘洋等(2019)。联邦机器学习:概念和应用。ACM 智能系统和技术交易。10. 1-19。10.1145/3298981。

    纵向联邦学习也称为“特征区分联邦学习”或“异构联邦学习”,适用于具有不同特征空间的两个或多个数据集共享相同样本ID的情况。通过纵向联邦学习,我们可以训练一个具有更多维度属性的模型以获得更好的的预测效果。



资料来源:杨强,刘洋等(2019)。联邦机器学习:概念和应用。ACM 智能系统和技术交易。10. 1-19。10.1145/3298981。

在一些学术论文中,您可能会看到“联邦迁移学习”,该术语适用于具有两个或多个具有不同特征空间和不同样本的数据集的场景。然而,联邦迁移学习仍是一项发展中的技术。


用例

随着联邦学习变得越来越成熟,我们看到越来越多的工业用例适合联邦学习。基于Federated AI Technology Enabler(FATE:https://github.com/FederatedAI/FATE,Linux基金会托管的联邦学习平台开源项目)的应用场景越来越多,包括汽车保险定价、信用风险管理、销售预测、智能安全、辅助诊断、智能广告、自动驾驶等。

1

用例一:

基于联邦学习的智能安全

智慧安防是智慧城市的重要组成部分。在传统的安防场景中,摄像头用于采集基础数据,IT系统和服务器用于处理这些数据。建立控制室进行监控,以辅助人工检测危险行为。但是,这包括缺点,例如:

  1. 流程冗长,导致人工成本高,效率低。

  2. 现有的异常定义依赖于主观考虑,这可能导致预警系统出现错误和误判。

  3. 收集的数据来自摄像头、门禁卡和其他来源(彼此不相关)。这些数据是孤立的,降低了其价值。

利用联邦学习和多组织数据构建安全模型,数据可以跨组织互联互通,形成维度重叠的智能安全网络。借助云计算和大数据分析,智能安防系统不断进行事后总结和自我学习。

对来自视频、传感器和信息软件的联邦数据进行收集、整理和分析,以提供更安全、更准确的风险预测服务。在这种情况下,联邦学习模型(基于从 10 个社区收集的数据)在各个方面都优于单一社区模型——准确性、精度、接收者操作特征曲线等。即使仅有两个社区参与联邦建模,并且可用样本较少,联邦学习模型的准确率依然比单一社区模型的准确率高约 3%

2

用例二:

基于联邦学习的信用风险管理

对于信用风险管理,因为整个过程调用了不同的数据API,所以单个客户的信用审查成本较高。(例如消费金融和小微企业调用API进行身份验证和信用检查的成本,也称为小微企业。)此外,银行和其他金融机构在收到小微企业信贷请求时,往往缺乏有关企业运营的有用数据,这使放款会复杂化并延长审核周期。

联邦学习和联邦数据网络可以帮助信用风险管理组织简化预先批准程序。该解决方案从风险源头开始,帮助企业过滤掉黑名单或无效样本,进一步降低贷款审批流程后期的信用审查成本。

小微企业信用风险管理的第二个挑战是数据质量差的问题,包括Y(标签)样本量低、样本的区分性差、样本分布偏离正态分布。联邦学习使消费金融和信贷机构能够不断积累业务数据,通过冷启动操作优化模型,然后应用闭环AI建模、小样本建模、模型持续优化等先进解决方案。

小微企业信用风险管理的另一个挑战是历史源数据稀缺且不完整。联邦学习的多源数据融合机制能够包括交易数据、税收、声誉、金融、无形资产和其他小微企业数据,以帮助金融机构在不损害数据隐私或安全的情况下丰富其特征空间。纵向联邦学习可防止数据泄漏,并有助于获得与全数据模型等效(或尽可能接近)的性能。

借助 FATE,中国第一家数字银行微众银行用客户的发票数据训练了一个联邦模型。它发现风险管理模型的性能提高了约 12%,将消费金融机构的预期信用审查成本降低了 5% 到 10%。信用风险管理能力有所提升。由于消除了黑名单/无效样本,预批期间的预期 API 调用成本降低了 20% 至 30%


下一步是什么?

作为一种新兴的 ML 技术,联邦学习因其潜力而引起了极大的兴趣。在我们的下一篇文章中,我们将介绍开源联邦学习平台和云原生项目,这些项目帮助我们启动和管理联邦学习的生命周期。


(未完待续)


要想了解云原生、机器学习和区块链等技术原理,请立即长按以下二维码,关注本公众号亨利笔记 ( henglibiji ),以免错过更新。


文章转载自亨利笔记点击这里阅读原文了解更多


联系关于Linux基金会




Linux基金会是非营利性组织,是技术生态系统的重要组成部分。 

Linux基金会通过提供财务和智力资源、基础设施、服务、活动以及培训来支持创建永续开源生态系统。在共享技术的创建中,Linux基金会及其项目通过共同努力形成了非凡成功的投资。请长按以下二维码进行关注。



本文分享自微信公众号 - LFAPAC(gh_8442c14fe49e)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中

作者的其它热门文章

打赏
0
0 收藏
分享
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部