专利 基于集成决策学习的数据隐私可保护分类分级方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210857224.9 (22)申请日 2022.07.20 (71)申请人国网江苏省电力有限公司营销服务中心地址 210019 江苏省南京市建邺区奥体大街9号申请人国网江苏省电力有限公司　国家电网有限公司 (72)发明人赵磊　许道强　钱旭盛　邓君华　吴波　朱妍　 (74)专利代理机构北京智绘未来专利代理事务所(普通合伙) 11689 专利代理师王萍 (51)Int.Cl. G06K 9/62(2022.01)G06F 21/62(2013.01) G06F 21/60(2013.01) (54)发明名称基于集成决策学习的数据隐私可保护分类分级方法及系统 (57)摘要一种基于集成决策学习的数据隐私可保护分类分级方法及系统，将训练决策树模型所需的用户侧设备数据类别属性参数以加扰的方式通过对称加密送至云端服务器进行数据集成；云端服务器利在不解密的情况下将所有用户侧设备上传的类别属性进行集成，再将集成计算后的密文下发至各用户侧设备，用户侧设备利用解密获得的数据完成集成决策学习的决策树模型的训练；采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。本发明可实现云服务场景下的数据在加密保护情况下的自动分类分级识别。权利要求书3页说明书9页附图1页 CN 115081540 A 2022.09.20 CN 115081540 A 1.基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：所述方法包括以下步骤：各用户侧设备已知分类分级情况的电力数据样本集合为D，将样本数据的类别属性对应的集合定义为c＝{c1,c2,…,ck}， ci(i＝1,2, …k)为第i类别属性，计算得到各类别属性对应的样本数据频率集合PD＝{P1,P2,…,Pk}；用户侧设备生成随机数z,并将z添加到PD的各元素上，得到P ′D＝{P1+z,P2+z,…,Pk+z}；对随机数z用云端服务器公钥进行加密，并将随机数z密文发送至云端服务器；用户侧设备采用对称加密算法对P ′D中各元素进行加密，并将P ′D中各元素密文E(Pi+z) 发送至云端服务器；接收云端服务器返回的加密求和值，所述加密求和值由所有用户侧设备的样本数据频率原始值对应的密文求和得到；用户侧设备对加密求和值进行解密得到求和值，根据求和值计算各类别属性的信息增益；用户侧设备以各类别属性的信息增益值和其原始样本数据所对应分级分类情况为训练集训练决策树模型，完成集成决策学习；采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别。 2.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：频率集合PD中的元素Pi(i＝1,2, …k)的值为用户侧设备第i个类别属性对应的样本数据数量占用户侧设备电力样本数据集D数据量的比例。 3.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：选择随机数r，采用对称加密算法公钥pk按如下公式对P ′D中元素Pi+z进行对称加密得到密文E(Pi+z)：其中， n,g均为对称加密算法公钥pk ＝(n,g)中的参数值， mod为求余算式。 4.根据权利要求3所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：按照以下方式生成对称加密算法的公钥和私钥：公钥pk＝(n,g)，私钥sk ＝(p,q, μ )；其中， n的欧拉函数值为 λ； n＝pq，为随机整数，且n整除g的阶； p,q为随机选择的素数，表示为正整数域； λ＝(p‑1)(q‑1)。 5.根据权利要求4所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：权　利　要　求　书 1/3 页 2 CN 115081540 A 2第i个属性类别的样本数据频率原始值对应的密文E(Pi)为： 6.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：假设有m个用户侧设备， Pji表示为第j(j＝1,2, …m)个用户侧设备的第i个属性类别的样本数据频率原始值，第j个用户侧设备的第i个属性类别的样本数据频率原始值对应的密文为Ej(Pji)，则所述加密求和值为： 7.根据权利要求4所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：所述解密过程为：为加密求和值；为解密得到的求和值。 8.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：第i个类别属性的信息增益值IG(i)计算公式为： IG(i)＝Ent ropy(D)‑Entropyi(D) (4) 其中，为解密得到的求和值； D表示电力数据样本集合，运算符||表示集合的个数； al为第j个用户侧设备的第i个类别属性对应的第l个样本数据值， 1≤l≤L， L第i个类别属性对应的样本数据的数量；为第j个用户侧设备的al对应的样本数据数量占第i个类别属性数据数量的比例。 9.根据权利要求1所述的基于集成决策学习的数据隐私可保护分类分级方法，其特征在于：权　利　要　求　书 2/3 页 3 CN 115081540 A 3

专利 基于集成决策学习的数据隐私可保护分类分级方法及系统

专利基于集成决策学习的数据隐私可保护分类分级方法及系统