专利 一种非独立同分布数据场景下的联邦学习隐私保护方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211081816.2 (22)申请日 2022.08.31 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫街道孝陵卫街200号 (72)发明人张轶凡　张一晋　马川　 (74)专利代理机构南京鼎傲知识产权代理事务所(普通合伙) 32327 专利代理师刘蔼民 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称一种非独立同分布数据场景下的联邦学习隐私保护方法 (57)摘要本发明属于隐私保护技术领域，具体涉及一种非独立同分布数据场景下的联邦学习隐私保护方法。本发明将联邦学习模型与生成对抗神经网络相结合，解决了联邦学习在非独立同分布场景下训练难收敛的问题，降低联邦学习框架内各终端的通信损耗，可以在联邦各终端算力较低的情况下提高机器利用率和学习效率。本发明所使用的ViTGAN生成对抗网络生成的近似真实数据分布的虚假数据，能够满足本地用户的隐私保证，加快联邦学习的收敛速度和降低训练通信负载，提升联邦学习训练好的全局模型和测试精度，同时解决联邦学习易受到推理攻击的问题。权利要求书1页说明书4页附图3页 CN 115374479 A 2022.11.22 CN 115374479 A 1.一种非独立同分布数据场景下的联邦学习隐私保护方法，其特性在于使用ViTGAN生成对抗网络生成近似于真实数据分布的虚假数据，满足本地用户隐私保证的同时提升联邦学习的性能，具体步骤为： S1：在联邦学习的客户端本地部署ViTGAN，使终端已有的数据和预先分配的一般化数据对ViTGAN的生成器和判别器进行训练； S11：输入高斯噪声给生成器，产出虚假数据提交给判别器进行判断，根据判别器的输出结果判断是否要对生成器进行进一步训练，若判别器无法识别则对判别器进行强化训练，若能被识别则对生成器进行强化训练； S12：利用构建Resnet ‑18网络对于ViTGAN 生成的图像数据进行分类测试； S13：重复S1 1、 S12直至生成器于判别器达到纳什平衡，且测试准确度达到85％； S14：利用ViTGAN模拟本地数据，产出近似于本地数据分布的虚假数据备用。 2.联邦学习中心服务器向各参与的客户端分发初始模型和训练要求参数，客户端收到初始模型后开始进行训练； S21：中心服务器用于将原始本地数据集和ViTGAN生成的虚假数据集按照一定比例混合成目标数据集，再以非独立同分布方式划分多个子集数据集使得每个子数据集包含一种或两种类别数据，还用于分配子数据集到客户端使得每个客户端均拥有一个子数据集； S22：客户端用于基于接收得子数据集，依据当前的分发到的模型参数指导训练当前本地模型，并更新本地模型参数，依据约定的通信方式上传模型参数至中心服务器； S23：中心服务器还用于根据接收的模型参数进行聚合得到聚合模型参数，依据约定的通信方式下传聚合模型参数至各客户端以作为下一轮联邦学习的基础。 3.重复S21 ‑S23不断强化全局模型，并得到对最新全局模型测试的准确度。权　利　要　求　书 1/1 页 2 CN 115374479 A 2一种非独立同分布数据场景下的联邦学习隐私保护方法技术领域 [0001]本发明涉及联邦学习隐私保护技术领域，尤其是涉及一种基于非独立同分布数据场景下的联邦学习隐私保护方法。背景技术 [0002]随着大数据、人工智能、云计算等新技术在各行业不断深入应用，全球数据呈现爆发增长、海量聚集的特点，数据的价值愈发凸显。数据作为生产要素的流通交易，面临确权和隐私保护两大关键难题。数据本质上是信息，不具备独享性或专享性，多数人可同时拥有。大数据时代，与个人有关的信息传播边际成本微乎其微，能够迅速传遍整个世界，这种低成本使得数据保护面临特殊困难。目前，公司和组织等越来越多地收集用户的详细信息，一方面，能够通过这些属于不同组织的原始数据抽取出有价值的信息，这些信息能通过机器学习技术来提升产品、服务和福利的质量；另一方面，在分布式场景下会存在潜在的滥用和攻击行为，这对数据隐私和安全带来了极大地挑战。传统从用户端收集数据整合后训练机器学习模型的方式被担忧可能会侵犯隐私。 [0003]联邦学习为解决用户间隐私问题而产生，能够在尽量不影响效率的情况下实现隐私保护的联合机器学习。相较于将所有的本地数据发送给中央模型，联邦学习将模型分配给每一个设客户端去协助各设备进行模型的训练。在联邦学习中，服务器负责将所有设备终端中的模型融合成一个全局模型，以及将全局模型下发给所有的终端设备。在模型训练过程中，各终端设备只将本地训练得到的模型更新信息上传至服务器用以进行模型权重的聚合，从而能够实现各终端设备本地数据的隐私保护以及降低系统整体的通信开销。 [0004]尽管联邦学习在各设备终端的协作机器学习中有很大的应用价值，但是它极大地受困于各设备终端的数据分布不一致的缺点。当各终端设备收取的数据分布属于独立同分布时，由于各设备终端中的本地模型训练得到的随机梯度是对整体梯度的无偏估计，所以传统的联邦学习能够表现出卓越的性能。但是当系统中各设备收取的数据分布为偏斜的非独立同分布时，各设备终端中的模型在训练中就会向不同的方向收敛优化。由于各设备终端梯度发散的现象，在这种数据分布的情况下，传统联邦学习的精度会剧烈下降。另外，相较于在独立同分布的数据场景下，当各终端设备中的数据属于非独立同分布时，传统的联邦学习需要更多的信息沟通轮数达到全局模型的收敛，这也会给设备贫瘠的网络带宽增加巨大的压力。 [0005]因此，需要一种新的联邦学习隐私保护方法来进一步提升隐私保护的效果，从而达到更佳的性能。发明内容 [0006]鉴于上述，本发明的目的在于提供一种非独立同分布数据场景下的联邦学习隐私保护方法，在保障用户数据安全的基础上，进一步提升特定场景下联邦学习系统的实用性和有效性，同时解决联邦学习系统的通信效率及损耗问题。说　明　书 1/4 页 3 CN 115374479 A 3

专利 一种非独立同分布数据场景下的联邦学习隐私保护方法

专利一种非独立同分布数据场景下的联邦学习隐私保护方法