(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210787360.5
(22)申请日 2022.07.05
(71)申请人 徽商银行股份有限公司
地址 230022 安徽省合肥市 云谷路169 9号
徽银大厦
(72)发明人 胡广宇 吴瑶珂 傅世豪 陈永
(74)专利代理 机构 合肥天明专利事务所(普通
合伙) 34115
专利代理师 苗娟
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 40/02(2012.01)
G06Q 50/06(2012.01)
G06F 21/60(2013.01)
G06F 21/62(2013.01)G06F 7/58(2006.01)
G06N 3/08(2006.01)
(54)发明名称
非对称场景下基于联邦学习金融电力数据
融合方法及 介质
(57)摘要
本发明的一种非对称场景下基于联邦学习
金融电力数据融合方法及介质, 包括以下步骤:
将银行企业客户和电力企业客户数据唯一标识
符通过不经意伪随机函数结合线性同余法抽样
生成混淆集合, 完成双方样本的隐私求交; 利用
同态加密对纵向逻辑回归模型训练前向计算和
反向传播中的权重、 梯度等模型参数信息进行更
新; 利用训练完成的模型对 银行企业数据和电力
企业数据进行处理, 得到金融电力的评分结果。
本发明中利用基于不经意传输构造不经意伪随
机函数结合线性同余法抽样生成混淆集合完成
数据提供方和数据需求方的隐私求交问题, 进一
步提高对数据安全隐私保护能力, 所构建的纵向
逻辑回归评分模 型, 可以有效联合内外部数据建
模, 完成金融电力评分 建模。
权利要求书3页 说明书8页 附图1页
CN 115130880 A
2022.09.30
CN 115130880 A
1.一种非对称场景下基于联邦学习金融电力数据融合方法, 其特征在于, 包括以下步
骤:
S1、 将银行企业客户和电力企业客户数据唯一标识符通过不经意伪随机函数结合线性
同余法抽样生成混淆集 合, 完成双方样本的隐私求交;
S2、 利用同态加密对纵向逻辑回归模型训练前向计算和反向传播中的权重、 梯度等模
型参数信息进行 更新;
S3、 利用训练完成的模型对银行企业数据和电力企业数据进行处理, 得到金融电力的
评分结果。
2.根据权利要求1所述的非对称场景下基于联邦学习金融电力数据融合方法, 其特征
在于: 所述隐私求交是指针对银行端和电力端的样本企业客户, 根据其唯一标识符进行样
本对齐, 筛 选出共同样本客户用于后续联合建模, 所述隐私求交步骤如下:
在隐私求交阶段, 数据提供方A拥有的样本数远大于数据需求方B的数据量, 且数据需
求方B的数据具有模型训练所需的标签Y值;
首先, 数据提供方A和数据需求方B双方共同选择三个哈希函数h1, h2, h3: {0, 1}*→[b]以
及b个空桶B[1. ..b];
数据需求方B将其持有的n条数据放入空桶中, 每个桶中最多只 能放一条数据; 如果没
有空桶, 则 在b个桶中随机选择一个, 并将这个桶中的数据拿出, 再 尝试放入拿出的数据, 经
过一定轮次后, 仍找 不到空桶, 就将 被这些数据放入储藏桶中, 储藏桶中最多有s个元素; 放
入一条数据x, 需查看3个桶|B[h1(x)]B[h2(x)]B[h3(x)]是否空余, 其中桶数设定为1.2n个
桶与一个储藏桶, 数据需求方B构造假数据将所有桶都填满, 总共有1.2n+s条 数据;
数据提供方A生成1.2n+s个随机种子ki, i∈{1, 2, ..., 1.2n+s}, 用作1.2n+s个不经意
伪随机函数 的随机种子, 数据需求方B作为接 收方为桶中每一个元素计算不经意伪随机函
数, 如果元素被放在 i号桶中, 则计算F(ki, y), 如果元素被放在了储藏桶中的第j个位置, 则
计算F(k1.2n+j, y), F表示 为伪随机函数, 由随机数种子k当作密钥得到加密的结果;
数据提供方A作为发送方, 任意地计算伪随机函数F(ki,·), A为其输入x计算以下两个
集合:
S={F(k1.2n+j, x)|x∈X, j∈{1, 2, . .., s}}
其中H指不含储藏桶的不经意伪随机函数, 给定一个密钥k, 定义在x到H的随机函数, S
类似于H, 区别是S是含有储藏桶不经意伪随机函数;
数据提供方A将集合H和集合S中的元素打乱, 并将这两个集合发送给B; 对于数据需求
方B来说, 如果一个元素被放到储藏桶中, 则数据需求方B可以在集合S中查找对应的不经意
伪随机函数输出; 否则, 就在集合H中查找, 通过查找, 就得到A与B的交集; 数据需求方B在获
得真实交集后, 在交集外随机抽样混淆集合, 将混淆集合对应的伪随机函数返回给参与方
A;
在计算双方样本交集过程中, 数据提供方A无法获取样本的真实交集, 数据需求方也无
法从伪随机函数反推出A混淆集合的样本, 不经意伪随机函数的特性使得整个协议在隐私
保护方面是安全的;权 利 要 求 书 1/3 页
2
CN 115130880 A
2随机抽样时采用是线性同余法:
Xn+1=(aXn+b)mod c
其中, a=25214903917, b=11, c=248, 设定初始种子Xn为当前时间戳, 便能生成一系列
随机数用于 选择混淆样本;
混淆样本中伪样本的构成是从数据提供方A 的伪随机函数中选取, 随机选取的部分和
真实交集并集样本数应至少占数据提供方A的样本数的1/4, 降低数据需求方B的隐私泄露
的风险。
3.根据权利要求2所述的非对称场景下基于联邦学习金融电力数据融合方法, 其特征
在于: 所述 步骤S3中模型训练步骤 包括,
步骤(1)初始化: 数据提供方A和数据需求方B分别初始化各自节点模型, 设置模型训练
最大迭代步数、 学习率α, A和B节点基于同态加密原理各自生成公私钥, 并将公钥分别发送
给对方节点;
步骤(2)前向计算: 首先A节点计算XAWA, 减去A节点生成的随机噪声uA, 得到A节点输出
值, 并利用B的公钥对A 节点输出值同态加密发送给 数据需求方B;
同样, B节点计算XBWB, 减去B节点生成的随机噪声uB, 得到B节点输出值, 并利用A的公钥
对B节点输出值同态加密发送给 数据提供 方A;
其中, XA表示A节点输入值, WA表示A端模型权重, XB表示B节点输入值, WB表示B端模型权
重;
在A、 B节点对对方节点输出的加密数据利用本地私钥解密, 并分别加上本地节点的随
机噪声uA、 uB;
将数据提供方A获得的计算数据发送给数据需求方B, 并相加, 最终得到前向计算结果Z
=XAWA+XBWB, 计算y=sigmod(Z);
确定模型双方的损失函数: L oss=log2‑(1/2)(ywx)+(1/8)(wx2);
步骤(3)反向传播: 通过同态加密保护数据需求方B反向传播的模型总的梯度信息, 根
据损失函数和模型梯度信息分别计算数据提 供方A和数据需求 方B的梯度信息gA、 gB, 更新各
自模型参数w 值;
其中, w: = w‑α(1/m)(1/4)(wx ‑2y)x, g=(1/4)(wx ‑2y)x
步骤(4)迭代循环: 当模型收敛或者迭代次数达到设定阈值, 模型停止训练, 否则一直
重复(2)(3)步骤 迭代循环。
4.根据权利要求3所述的非对称场景下基于联邦学习金融电力数据融合方法, 其特征
在于: 所述S 3、 利用训练完成的模 型对银行企业数据和电力企业数据进 行处理, 得到金融电
力的评分结果, 具体包括:
已完成训练的纵向逻辑回归 模型分别部署在数据提供 方A和数据需求方B节点端;
数据需求方发起 新样本的预测请求, 具体为:
数据需求方B将样本唯一标识符通过不经意传输加密协议发送给数据提供方, 判断数
据提供方是否有此样本ID, 若无, 则结束; 若有, 则基于训练后的模型分别计算数据提供方
和数据需求 方的输出ZA和ZB, 然后数据提 供方将计算 结果发送给数据需求方, 完成最终评分
结果计算即完成最终评分结果计算:
Y=ZA+ZB。权 利 要 求 书 2/3 页
3
CN 115130880 A
3
专利 非对称场景下基于联邦学习金融电力数据融合方法及介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:35:03上传分享