本文分享自天翼云开发者社区《隐私计算之浅谈联邦学习》 作者:l****n
一、背景
“数据孤岛”简单的讲,各组织都持有各自的数据,这些数据之间互有关系但又独立存储于各组织。出于安全性、合规性等方面考虑,各组织只能查询、使用己方数据,无法交换其它组织的数据。在联邦学习出现前,针对数据隐私保护的密码学已应用于本地数据机器学习,随着“数据孤岛”问题的浮现,联邦学习的概念出现并发展的日益成熟。
二、联邦学习的概念
联邦学习的术语最早是McMahan等提出的,即“我们把我们的方法称为联邦学习,因为学习任务是由一个松散的联邦参与设备(我们称之为客户端)来解决的,而这个联邦设备是由一个中央服务器来协调的”。在比较权威的论文中有关于它的进一步定义便于我们理解:
联邦学习是一种机器学习设置,在中央服务器或服务提供商的协调下,多个实体(客户端)协作解决机器学习问题。每个客户的原始数据都存储在本地,不进行交换和传输;作为替代,通过特定的中间运算结果的传输和聚合来达到机器学习模型训练的目标。
而根据数据的分布形式,联邦学习可以分为三种:纵向联邦学习、横向联邦学习和迁移学习。纵向联邦限定各个联邦成员提供的数据集样本有足够大的交集,特征具有互补性,模型参数分别存放于对应的联邦成员内,并通过联邦梯度下降等技术进行优化。横向联邦限定各个联邦成员提供的数据集特征含义相同、模型参数结构相同,并使用联邦平均等隐私保护技术生成联邦模型。迁移学习既不限定数据集的特征含义相同,也不需要样本有交集,是一种在相似任务上传播知识的方法。
三、解决“数据孤岛”问题的难点与联邦学习的优势
难点:
1、数据安全保护。将不同组织的数据共享,除了数据泄露问题,还要考虑数据投毒攻/击等。
2、数据传输速度与成本。
3、数据定价难。
优势:
1、安全性:通过引入密码算法和其它多方安全计算方案,保证了在多方交互过程中只用到交集部分,差集部分不会出现数据泄露。
2、无损性:采用的同态加密技术保证了各方原始数据不会被传输,且加密的数据具有可计算性。
3、公平性:保证了参与方的公平性,让各参与方在数据独立的条件下建立联合训练模型。