standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211081816.2 (22)申请日 2022.08.31 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 街道孝陵卫 街200号 (72)发明人 张轶凡 张一晋 马川  (74)专利代理 机构 南京鼎傲知识产权代理事务 所(普通合伙) 32327 专利代理师 刘蔼民 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称 一种非独立同分布数据场景下的联邦学习 隐私保护方法 (57)摘要 本发明属于隐私保护技术领域, 具体涉及一 种非独立同分布数据场景下的联邦学习隐私保 护方法。 本发 明将联邦学习模型与生成对抗神经 网络相结合, 解决了联邦学习在非独立同分布场 景下训练难收敛的问题, 降低联邦学习框架内各 终端的通信损耗, 可以在联邦各终端算力较低的 情况下提高机器利用率和学习效率。 本发明所使 用的ViTGAN生成对抗网络生成的近似真实数据 分布的虚假数据, 能够满足本地用户的隐私保 证, 加快联邦学习的收敛速度和降低训练通信负 载, 提升联邦学习训练好的全局模型和测试精 度, 同时解决联邦学习易受到 推理攻击的问题。 权利要求书1页 说明书4页 附图3页 CN 115374479 A 2022.11.22 CN 115374479 A 1.一种非独立同分布数据场景下的联邦学习隐私保护方法, 其特性在于使用ViTGAN生 成对抗网络生成近似于 真实数据分布的虚假数据, 满足本地用户隐私保证的同时提升联邦 学习的性能, 具体步骤为: S1: 在联邦学习的客户端本地部署ViTGAN, 使终端已有的数据和预先分配的一般化数 据对ViTGAN的生成器和判别器进行训练; S11: 输入高斯噪声给生成器, 产出虚假数据提交给判别器进行判断, 根据判别器的输 出结果判断是否要对生成器进行进一步训练, 若判别器无法识别则对判别器进行强化训 练, 若能被识别 则对生成器进行强化训练; S12: 利用构建Resnet ‑18网络对于ViTGAN 生成的图像数据进行分类测试; S13: 重复S1 1、 S12直至生成器于判别器达 到纳什平衡, 且测试准确度达 到85%; S14: 利用ViTGAN模拟本地数据, 产出近似于 本地数据分布的虚假数据备用。 2.联邦学习中心服务器向各参与的客户端分发初始模型和训练要求参数, 客户端收到 初始模型后开始进行训练; S21: 中心服务器用于将原始本地数据集和ViTGAN生成的虚假数据集按照一定比例 混 合成目标数据集, 再以非独立同分布方式划分多个子集数据集使得每个子数据集包含一种 或两种类别数据, 还用于分配子数据集到客户端 使得每个客户端均拥有一个子数据集; S22: 客户端用于基于接收得子数据集, 依据当前的分发到的模型参数指导训练当前本 地模型, 并更新本地模型参数, 依据约定的通信方式上传模型参数至中心服 务器; S23: 中心服务器还用于根据接收的模型参数进行聚合得到聚合模型参数, 依据约定的 通信方式下传聚合模型参数至各客户端以作为下一轮联邦学习的基础。 3.重复S21 ‑S23不断强化全局模型, 并得到对最 新全局模型测试的准确度。权 利 要 求 书 1/1 页 2 CN 115374479 A 2一种非独立同分布数据场景下的联邦学习隐私 保护方法 技术领域 [0001]本发明涉及联邦学习隐私保护技术领域, 尤其是涉及一种基于非独立同分布数据 场景下的联邦学习隐私保护方法。 背景技术 [0002]随着大数据、 人工智能、 云计算等新技术在各行业不断深入应用, 全球数据呈现爆 发增长、 海量聚集的特点, 数据的价值愈发凸显。 数据作为生产要素 的流通交易, 面临确权 和隐私保护两大关键难题。 数据本质上是信息, 不具备独享性或专享性, 多数人可同时拥 有。 大数据时代, 与个人有关的信息传播边际成本微乎其微, 能够迅速传遍整个世界, 这种 低成本使得数据保护面临特殊困难。 目前, 公司和组织等越来越多地收集用户的详细信息, 一方面, 能够通过这些属于不同组织的原始数据抽取出有价值的信息, 这些信息能通过机 器学习技术来提升产品、 服务和福利的质量; 另一方面, 在分布式场景下会存在潜在的滥用 和攻击行为, 这对数据隐私和安全带来了极大地挑战。 传统从用户端收集数据整合后训练 机器学习模型的方式被担忧可能会侵犯隐私。 [0003]联邦学习为解决用户间隐私问题而产生, 能够在尽量不影响效率的情况下实现隐 私保护的联合机器学习。 相 较于将所有的本地数据发送给中央模型, 联邦学习将模型分配 给每一个设客户端去协助各设备进行模型 的训练。 在联邦学习中, 服务器负责将所有设备 终端中的模型融合成一个全局模型, 以及将全局模型下发给所有的终端设备。 在模型训练 过程中, 各终端设备只 将本地训练得到的模型更新信息上传至服务器用以进 行模型权重的 聚合, 从而能够实现各终端设备本地数据的隐私保护以及降低系统整体的通信开销。 [0004]尽管联邦学习在各设备终端的协作机器学习中有很大的应用价值, 但是它极大地 受困于各设备终端的数据分布不一致的缺点。 当各终端设备收取的数据分布属于独立同分 布时, 由于各设备终端中的本地模型训练得到的随机梯度是对整体梯度的无偏估计, 所以 传统的联邦学习能够表现出卓越的性能。 但是当系统中各设备收取的数据分布为偏斜的非 独立同分布时, 各设备终端中的模型在训练中就会向不同的方向收敛优化。 由于各设备终 端梯度发散的现象, 在这种数据分布的情况下, 传统联邦学习的精度会剧烈下降。 另外, 相 较于在独立同分布的数据场景下, 当各终端设备中的数据属于非独立同分布 时, 传统的联 邦学习需要更多的信息沟通轮数达到全局模型的收敛, 这也会给设备贫瘠的网络带宽增加 巨大的压力。 [0005]因此, 需要一种新的联邦学习隐私保护方法来进一步提升隐私保护的效果, 从而 达到更佳的性能。 发明内容 [0006]鉴于上述, 本发明的目的在于提供一种非独立同分布数据场景下的联邦学习隐私 保护方法, 在保 障用户数据安全的基础上, 进一步提升特定场景下联邦学习系统的实用性 和有效性, 同时解决联邦学习 系统的通信效率及损耗问题。说 明 书 1/4 页 3 CN 115374479 A 3

PDF文档 专利 一种非独立同分布数据场景下的联邦学习隐私保护方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种非独立同分布数据场景下的联邦学习隐私保护方法 第 1 页 专利 一种非独立同分布数据场景下的联邦学习隐私保护方法 第 2 页 专利 一种非独立同分布数据场景下的联邦学习隐私保护方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。