联邦学习安全聚合算法综述（论文解析）以及如何确定自己研究方向的方法

自己写相关论文的方法：

可以重点看看综述类论文的未来研究方向和引言中前人已经做过的内容

auth:江萍 1 通讯作者李芯蕊 1 赵晓阳 2 杭永凯

摘要

摘要：随着深度学习技术的发展，人工智能在社会的各个方面有着重要的应用，但缺少数据已经成为制约人工智能进一步发展的重要因素。联邦学习通过共享梯度的方式可以有效利用边缘节点数据，有效解决人工智能模型训练的数据问题。但在联邦学习中，由于攻击者可以利用共享的梯度发动恶意攻击来窃取用户隐私，所以如何安全上传梯度并进行聚合成为保障联邦学习中隐私安全的重要课题。因此，本文针对国内外联邦学习安全聚合的相关文献进行研究，分析安全聚合对于联邦学习中隐私保护的重要性，同时本文对现有的安全聚合方案进行总结，对实现安全聚合的不同技术手段展开分析。

关键词：联邦学习；安全聚合；隐私保护

联邦学习相关概念

为了满足人工智能使用过程中的隐私保护要求，Google 公司在 2017 年提出联邦学习这一概念。

联邦学习的参与方包括两个角色，分别是客户端和服务器。在每次模型训练过程中，客户端在利用本地训练一个子模型，然后将子模型而不是数据上传到客户端。客户端在收到所有客户端的子模型后对子模型进行聚合得到最终的全局模型。在这个过程中既使用了所有的本地数据，也保证了用户私人数据不出域，通过共享梯度的方式实现数据的“可用不可见”，保证数据使用的过程合规合法，从而促使更多的数据持有者参与模型训练，扩大数据规模，提高模型性能。

一、目前研究情况

Huang 等人[5] 提出一种个性化联邦学习的方案解决联邦学习中数据异质性导致的收敛速度慢等问题，Chai 等人[6]利用联邦学习实现了一种保证用户隐私的推荐系统，Sun 等人[7]利用神经网络中的量化技术减小联邦学习的模型规模，提高通信效率。

虽然联邦学习诞生的初衷是为了解决多方参与人工智能模型训练过程中的隐私问题，但有很多文献指出联邦学习仍然存在安全漏洞与隐私泄露风险。联邦学习期望通过上传梯度而不是直接上传数据来保证参与方的数据隐私，但是后续的研究[8]发现攻击者可以通过反转梯度还原训练数据，这种攻击方式增加了联邦学习的隐私泄露风险。除此之外，攻击者还可以伪装成联邦学习参与方，通过本地模型和全局模型对其他参与方的隐私进行推断攻击[9]。因此，针对联邦学习的隐私增强成为联邦学习安全的重要研究内容。

而大部分数据持有方出于隐私保护等方面的考虑并不会直接提供数据。这种现象也被称为“数据孤岛”。

2.1联邦学习原理与分类

联邦学习最早由 McMahan 等人[4]提出，并命名为 FedAvg 算法。在 FedAvg 算法中，主要角色有客户端与服务端两种，客户端提供数据进行子模型的训练，服务端聚合所有客户端的子模型生成全局模型。一次典型的联邦学习过程包含以下步骤：

1.所有客户端利用本地数据在本地训练一个子模型，并将子模型上传到服务端；

2.服务端在收集到所有客户端发送的子模型后对模型进行聚合，生成全局模型。

3.服务端将全局模型发送至所有参与方。在这个过程中，客户端的数据并没有进行传输，而是通过上传梯度来保证参与方的数据隐私。

由于联邦学习参与方的异质性，一般通过数据的性质将 联邦学习分为横向联邦学习、纵向联邦学习和迁移联邦学习。对于这三种不同的联邦学习方式，主要通过数据与特征的对齐位置决定。如果参与联邦学习的数据特征一致，数据条目不一致，即通过扩展样本的数量增加模型训练的精度，则称之为横向联邦；例如不同地区的银行进行联邦学习，由于银行业务相同但地区不同，所以样本不同但特征相同。如果参与联邦学习的数据条目一致，特征不一致，即通过联邦学习 扩展已有数据的特征空间，则称之为纵向联邦；例如同一地区的银行和保险公司进行联邦学习，由于业务不同但地区相同，所以样本相同但特征不同。如果参与联邦学习的数据条目与特征都不一致，则称之为迁移联邦；例如不同地区的银行和保险公司参与联邦学习，特征与数据都不相同

2.2 联邦学习中的隐私与安全问题

在深度学习特别是分布式深度学习中，直接上传数据进行训练会导致参与者的隐私泄露，所以联邦学习通过上传梯度来保证参与者的隐私。但后来有研究证明，梯度也会导致参与者的隐私泄露。除此之外，由于联邦学习多参与方、多轮通信等特点，联邦学习面临着更大的安全与隐私风险：无法保证参与方的合法性，攻击者可以伪装成合法参与者或通过监听信道发起攻击。

2.2.1 联邦学习中的安全问题

针对联邦学习的安全问题主要包含两类，一类是由于联邦学习中多轮通信引起的，一类是联邦学习中各参与方身份不完全可信引起的。对于多轮通信引起的安全问题主要还是基于传统的安全视角：在梯度的传输过程中容易被攻击者监听、窃取甚至修改。而由于参与方身份引起的安全问题与深度学习原生的安全性相关，例如攻击者伪装成为合法的参与方，发送恶意梯度来破坏模型性能。此外，目前针对联邦学习安全性的研究大多将服务器的性质也做了规定，一般认为联邦学习中的聚合服务器是“诚实且好奇的”，即服务器会“诚实” 执行预先设定好的程序，但会对执行的内容感到“好奇”。对于联邦学习中的安全问题，本节将介绍具有代表性的投毒攻击以及后门攻击。

（1）投毒攻击：针对机器学习领域的投毒攻击最早由 Biggo 等人[10]提出，其攻击方式主要通过翻转数据标签来破坏支持向量机性能的形式实现。而在联邦学习中，由于参与方数量庞大且身份无法保障，攻击者可以伪装成合法参与者《网络安全技术与应用》2024 年第 9 期安全模型、算法与编程 ‖49‖ 并篡改上传的梯度，达到攻击的效果。一般而言，对于投毒攻击可以分为数据投毒和模型投毒[11]，其区别主要在于发起攻击的方式。数据投毒主要通过修改数据信息以达到降低全局模型性能的效果，例如 Shafahi 等人[12]提出一种通过在现有数据集中添加噪声的方式进行数据投毒。Zhang 等人[13]使用生成对抗网络（Generative Adversarial Networks，GAN）生成中毒数据进行攻击。对于模型投毒，攻击者主要通过对上传的梯度进行篡改从而达到对全局模型性能损耗的目的。Rong 等人[14]针对联邦推荐系统提出一种利用公共数据来近似特征向量，并进一步设计更加隐蔽的中毒梯度，从而达到投毒攻击的效果。Zhang 等人[15]利用 GAN 学习其他良性梯度的特点，并生成与良性梯度相似的中毒梯度。在中毒攻击中有一种比较特殊的形式，即攻击者的数量占比超过二分之一。在这种情况下，较为常见的投毒攻击防御手段都无法生效，这种情况也被称为联邦学习中的拜占庭问题[16]。

（2）后门攻击：投毒攻击的主要目的在于通过恶意梯度或者恶意数据来降低全局模型的准确度，而后门攻击是在不影响全局模型精度的情况下降低模型在某一类数据上准确度，其攻击手段也是通过数据投毒或模型投毒实现，因此在联邦学习中，许多研究者将后门攻击归纳为特殊的投毒攻击[17]。针对深度学习的后门攻击最早由 Chen 等人[18]提出，通过注入少量中毒实例就可以实现对神经网络的后门攻击。在联邦学习领域，Sun 等人[19]讨论了联邦学习中后门攻击的可能性与潜在防御手段，并实验证明了攻击的有效性。Fang 等人[20] 则提出一种在拜占庭方式下的投毒攻击方案，能够在 Krum[21]、 Trimmed mean[22]等主流的防御方案下依然生效。

2.2.2联邦学习中的隐私问题

上文对联邦学习面临的安全问题进行了简单的总结，实际上联邦学习面临的问题除了安全问题之外还有隐私问题。安全问题主要目的在于破坏联邦学习模型的准确性等性能，隐私问题主要目的在于获取参与方的各类隐私信息，不对模型准确性进行破坏。联邦学习的隐私问题主要来自模型反演攻击[23]，模型反演攻击能够通过梯度反向训练模型来还原训练数据。而联邦学习中训练过程在客户端一侧完成，且客户端通过梯度上传来完成聚合，这种设置大幅增加了联邦学习遭受模型翻转攻击的可能性，导致联邦学习的隐私泄露风险急剧增加。针对联邦学习中数据隐私的攻击方式主要包括推断攻击与重建攻击两种[24]。（1）推断攻击：推断攻击指攻击者利用模型的中间参数或其他模型相关信息来推断用户以及模型的敏感属性。例如 Shokri 等人[25]通过推断攻击可以推测某条数据是否存在于训练集中。正如上文所说，由于联邦学习的梯度信息完全公开，所以增加了遭受推断攻击的可能性。Melis 等人[26]在联邦学习中实现了推断攻击，证明了共享梯度潜在的隐私泄露风险。（2）重建攻击：重建攻击指攻击者利用模型得到中间参数或其他模型相关信息来重建训练数据。重建攻击的思路来自模型反演攻击，Zhu 等人[8]提出的梯度泄露攻击不需要任何辅助数据和额外的训练，使用优化的方式，从梯度数据中直接恢复训练数据。之后 Ren 等人[27]提出一种利用 GAN 来重建图像数据的联邦学习重建攻击方法。

3 梯度泄露攻击与安全聚合

梯度泄露攻击的提出导致联邦学习无法通过上传梯度来保护数据隐私，因此研究人员通过安全聚合来保证联邦学习的梯度可以安全上传并进行聚合。本章将介绍梯度泄露攻击以及常见的安全聚合方案。

3.2 安全聚合方案

为了防止攻击者通过梯度来重建用户隐私，目前较为主流的解决方案为安全聚合，通过密码学手段或隐私增强技术 来防止攻击者直接获得梯度。但是安全聚合的一个问题在于，如何对加密后或者隐私增强后的梯度进行聚合。此外，目前大多数方案都假设联邦学习中聚合服务器“诚实且好奇”，这进一步加大了安全聚合的难度。对于一次聚合来说，需要达到以下条件：

（1）每个客户端上传增强后的梯度，攻击者、服务器或其他客户端无法直接获得原梯度；

（2）服务器收到所有梯度后在服务器端进行聚合，聚合后的梯度是透明的，但聚合前与聚合中的梯度对于服务器仍然不可见；

（3）由于联邦学习中的设备异质性，部分客户端可能会因为网络或设备故障无法参与聚合，聚合方案需要考虑故障设备退出的处理方案。除了以上三点之外，安全聚合方案还需要考虑客户端选择、聚合效率等因素，本章将介绍目前较为主流的安全聚合方案。

除了以上三点之外，安全聚合方案还需要考虑客户端选择、聚合效率等因素，本章将介绍目前较为主流的安全聚合方案。

3.2.1 基于掩码的安全聚合方案

基于掩码的方案利用随机数隐藏真实的梯度，该随机数也就是掩码。

3.2.2 基于多方安全计算的安全聚合方案

多方安全计算最早可以追溯到百万富翁问题，如果两个富翁希望比较他们之间的财富值，但又不想让对方或第三方知道他们财富的具体值。基于这个问题产生了多方安全计算这个概念。对应到联邦学习中，每个参与方都期望能够将自己上传的梯度进行聚合，但又不希望透露自己上传梯度的真实值，这恰好符合多方安全计算的特质。目前较为常见的多方安全计算方法包括混淆电路、秘密共享等。而在联邦学习安全聚合中，较为经典的方案就是通过秘密共享实现隐私保护的联邦安全聚合。

3.2.3 基于同态加密的安全聚合方案

3.2.4 基于差分隐私的安全聚合方案

4 联邦学习未来研究方向（写新论文的话可以重点看看这章）

即使目前联邦学习存在隐私泄露、效率较低、异质性问题等缺陷，但不可否认联邦学习仍然能够有效利用不同持有方的数据进行训练，未来关于联邦学习的研究方向将在提高隐私保护性能、提高效率、解决异质性这几个方面展开。在提高隐私保护性能方面，进一步研究安全攻击以及隐私泄露方法，通过差分隐私、同态加密等隐私增强方法来保证联邦学习中的隐私安全是十分必要的。特别是如何将安全聚合与抵抗投毒攻击的方法进行结合将是联邦学习安全与隐私方面研究的重点。在效率方面，需要进一步提高联邦学习的模型训练效率，减少通信开销。研究将重点放在降低模型更新传输的数据量、提高模型更新的压缩效率、优化模型结构等方面，以进一步提高联邦学习的实际可行性。关于异质性，则需要通过个性化联邦学习等方案进行优化。