(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210857224.9
(22)申请日 2022.07.20
(71)申请人 国网江苏省电力有限公司营销服 务
中心
地址 210019 江苏省南京市 建邺区奥体大
街9号
申请人 国网江苏省电力有限公司
国家电网有限公司
(72)发明人 赵磊 许道强 钱旭盛 邓君华
吴波 朱妍
(74)专利代理 机构 北京智绘未来专利代理事务
所(普通合伙) 11689
专利代理师 王萍
(51)Int.Cl.
G06K 9/62(2022.01)G06F 21/62(2013.01)
G06F 21/60(2013.01)
(54)发明名称
基于集成决策学习的数据隐私可保护分类
分级方法及系统
(57)摘要
一种基于集成决策学习的数据隐私可保护
分类分级方法及系统, 将训练决策树模型所需的
用户侧设备数据类别属性参数以加扰的方式通
过对称加密 送至云端服务器进行数据集成; 云端
服务器利在不解密 的情况下将所有用户侧设备
上传的类别属性进行集成, 再将集成计算后的密
文下发至 各用户侧设备, 用户侧设备利用解密获
得的数据完成集成决策学习的决策树模型的训
练; 采用训练后的决策树模型进行用户侧设备本
地数据的分类 分级识别。 本发明可 实现云服务场
景下的数据在加密保护情况下的自动分类分级
识别。
权利要求书3页 说明书9页 附图1页
CN 115081540 A
2022.09.20
CN 115081540 A
1.基于集成决策 学习的数据隐私可保护分类分级方法, 其特 征在于:
所述方法包括以下步骤:
各用户侧设备已知分类分级情况的 电力数据样本集合为D, 将样本数据的类别属性对
应的集合定义为c={c1,c2,…,ck}, ci(i=1,2, …k)为第i类别属性, 计算得到各类别属性
对应的样本数据频率 集合PD={P1,P2,…,Pk};
用户侧设备生成随机数z,并将z添加到PD的各元素上, 得到P ′D={P1+z,P2+z,…,Pk+z};
对随机数z用云端服 务器公钥进行加密, 并将随机数z密文发送至云端服 务器;
用户侧设备采用对称加密算法对P ′D中各元素进行加密, 并将P ′D中各元素密文E(Pi+z)
发送至云端服 务器;
接收云端服务器返回的加密求和值, 所述加密求和值由所有用户侧设备的样本数据频
率原始值对应的密文求和得到;
用户侧设备对加密求和值进行解密得到求和值, 根据求和值计算各类别属性的信 息增
益;
用户侧设备以各类别属性的信息增益值和其原始样本数据所对应分级分类情况为训
练集训练决策树模型, 完成集成决策 学习;
采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。
2.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:
频率集合PD中的元素Pi(i=1,2, …k)的值为用户侧设备第i个类别属 性对应的样本数
据数量占用户侧设备电力样本数据集D数据量的比例。
3.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:
选择随机数r, 采用对称加密算法公钥pk按如下公式对P ′D中元素Pi+z进行对称加密得
到密文E(Pi+z):
其中, n,g均为对称加密算法公钥pk =(n,g)中的参数值, mod为 求余算式。
4.根据权利要求3所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:
按照以下 方式生成对称加密算法的公钥和私钥:
公钥pk=(n,g), 私钥sk =(p,q, μ );
其中, n的欧拉函数值 为 λ;
n=pq,
为随机整数, 且n整除g的阶;
p,q为随机 选择的素 数,
表示为正整数域;
λ=(p‑1)(q‑1)。
5.根据权利要求4所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:权 利 要 求 书 1/3 页
2
CN 115081540 A
2第i个属性类别的样本数据频率原 始值对应的密文E(Pi)为:
6.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:
假设有m个用户侧设备, Pji表示为第j(j=1,2, …m)个用户侧设备 的第i个属性类别的
样本数据频率原始 值, 第j个用户侧设备的第i个属性类别的样本数据频率原始 值对应的密
文为Ej(Pji), 则
所述加密求和值 为:
7.根据权利要求4所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:
所述解密过程 为:
为加密求和值;
为解密得到的求和值。
8.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:
第i个类别属性的信息增益 值IG(i)计算公式为:
IG(i)=Ent ropy(D)‑Entropyi(D) (4)
其中,
为解密得到的求和值;
D表示电力数据样本集 合, 运算符||表示集合的个数;
al为第j个用户侧设备的第i个类别属性对应的第l个样本 数据值, 1≤l≤L, L第i个类别
属性对应的样本数据的数量;
为第j个用户侧设备的al对应的样本数据数量占第i个 类别属性数据数量的比例。
9.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法, 其特征
在于:权 利 要 求 书 2/3 页
3
CN 115081540 A
3
专利 基于集成决策学习的数据隐私可保护分类分级方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:54上传分享