(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211039387.2
(22)申请日 2022.08.29
(71)申请人 上海大学
地址 200444 上海市宝山区上 大路99号
(72)发明人 钱权 李莹婕 冯燕
(74)专利代理 机构 北京方圆嘉 禾知识产权代理
有限公司 1 1385
专利代理师 王月松
(51)Int.Cl.
G06F 21/62(2013.01)
G06K 9/62(2022.01)
G06N 5/00(2006.01)
(54)发明名称
一种基于差分隐私的决策树集成训练方法
及装置
(57)摘要
本发明涉及一种基于差分隐私的决策树集
成训练方法及装置, 本发明的方法及装置基于指
数机制对训练数据中需要 隐私保护的特征进行
保护处理, 基于拉普拉斯机制对训练后的本地决
策树模型中的叶子节点进行保护处理, 避免了因
模型反向推导而造成的隐私数据的泄露的的问
题。
权利要求书3页 说明书9页 附图3页
CN 115310133 A
2022.11.08
CN 115310133 A
1.一种基于差分隐私的决策树集成训练方法, 其特征在于, 所述方法应用于分布式集
成系统, 所述分布式集群系统包括服务器和与服务器连接的多个客户端, 每个所述客户端
拥有不同的隐私数据集合, 所述隐私数据集合用于所述决策树模型 的训练, 所述隐私数据
集合中的隐私数据为材 料的加工参数 数据和性能参数 数据, 所述方法包括如下步骤:
获取服务器发送的客户端的隐私预算和另一客户端训练完成后得到的全局决策树模
型;
从本地训练数据集合中选取需要隐私保护的训练数据, 构建重要特征集合; 所述本地
训练数据集 合为所述隐私数据集 合中的子集;
根据客户端的隐私预算, 利用指数机制对训练数据中需要隐私保护的特征进行保护处
理, 获得处 理后的训练数据;
利用所述处理后的训练数据对所述全局决策树模型进行训练, 获得训练后的本地决策
树模型;
根据客户端的隐私预算, 利用拉普拉斯机制对训练后的本地决策树模型中的叶子节点
进行保护处理, 获得处理后的本地决策树模型, 并将处理后的本地决策树模型发送给服务
器。
2.根据权利要求1所述的基于差分隐私的决策树集成训练方法, 其特征在于, 所述本地
训练数据集 合采用如下 方式获取:
采用随机抽样的方式从所述隐私数据集 合中获取多个隐私数据;
将多个所述隐私数据作为训练数据, 构建本地训练数据集 合。
3.根据权利要求1所述的基于差分隐私的决策树集成训练方法, 其特征在于, 所述从本
地训练数据集 合中选取需要隐私保护的训练数据, 构建重要特 征集合, 具体包括:
利用如下公式构建第一特 征集合;
feature∈IP,if|Vf|≤n·ζ;
其中, feature为训练数据中的特征, IP为第一特征集合, Vf为所有训练数据中的特征
feature的特征值的集合; n为本地训练数据集合中训练数据的个数, ζ为训练数据的不完全
隐私指数;
根据专家经验构建第二特 征集合;
获取所述第一特 征集合和所述第二特 征集合的并集作为所述重要特 征集合。
4.根据权利要求1所述的基于差分隐私的决策树集成训练方法, 其特征在于, 所述根据
客户端的隐私预算, 利用指数机制对训练数据中需要隐私保护的特征进行保护处理, 获得
处理后的训练数据, 具体包括:
根据客户端的隐私预算, 利用如下公式计算内部节点的隐私预算;
其中, εnonleaf为内部节点的隐私 预算, MaxD epth为决策树模型训练的最大深度值,
为
第k个训练周期中第m个客户端的隐私预算;
根据内部节点的隐私预算, 利用如下公式计算需要隐私保护的特征的概率指数值作为
需要隐私保护的特 征的处理后的特 征值;权 利 要 求 书 1/3 页
2
CN 115310133 A
2其中, Pbvalue为需要隐私 保护的特征的概率指数值, bvalue为 需要隐私 保护的特征的特
征值, Δ表示需要隐私保护的特 征的特征值增量, Gbvalue为需要隐私保护的特 征的增益。
5.根据权利要求1所述的基于差分隐私的决策树集成训练方法, 其特征在于, 所述根据
客户端的隐私预算, 利用拉普 拉斯机制对训练后的本地决策树模型中的叶子节点进行保护
处理, 获得处 理后的本地决策树模型, 具体包括:
根据客户端的隐私预算, 利用如下公式计算叶子节点的隐私预算;
其中, εleaf为叶子节点的隐私预算,
为第k个训练周期中第m个客户端的隐私预算;
根据叶子节点的隐私预算, 利用拉普拉斯机制, 采用 如下公式对训练后的本地决策树
模型中的叶子节点进行保护处 理;
其中, w'j为处理后的第j个叶子节点的权重, Ij为用于训练第j个叶子节点的处理后的
训练数据的集合, gi和hi分别为第i个处理后的训练数据对应的损失函 数值的一阶和二阶梯
度统计量, εleaf为叶子节点的隐私预算, λ为已知参数。
6.一种基于差分隐私的决策树集成训练装置, 其特征在于, 所述装置应用于分布式集
成系统, 所述分布式集群系统包括服务器和与服务器连接的多个客户端, 每个所述客户端
拥有不同的隐私数据集合, 所述隐私数据集合用于所述决策树模型 的训练, 所述隐私数据
集合中的隐私数据为材 料的加工参数 数据和性能参数 数据, 所述装置包括:
数据获取模块, 用于获取服务器发送的客户端的隐私预算和另一客户端训练完成后得
到的全局决策树模型;
需要隐私保护的特征选取模块, 用于从本地训练数据集合中选取需要隐私保护的训练
数据, 构建重要特 征集合; 所述本地训练数据集 合为所述隐私数据集 合中的子集;
特征保护处理模块, 用于根据客户端的隐私预算, 利用指数机制对训练数据中需要隐
私保护的特 征进行保护处 理, 获得处 理后的训练数据;
训练模块, 用于利用所述处理后的训练数据对所述全局决策树模型进行训练, 获得训
练后的本地决策树模型, 根据客户端的隐私预算, 利用拉普拉斯机制对训练后的本地决策
树模型中的叶子节点进行保护处理, 获得处理后的本地决策树模型, 并将处理后的本地决
策树模型发送给服 务器。
7.根据权利要求6所述的基于差分隐私的决策树集成训练装置, 其特征在于, 所述本地
训练数据集 合采用如下 方式获取:
采用随机抽样的方式从所述隐私数据集 合中获取多个隐私数据;
将多个所述隐私数据作为训练数据, 构建本地训练数据集 合。
8.根据权利要求6所述的基于差分隐私的决策树集成训练装置, 其特征在于, 所述需要权 利 要 求 书 2/3 页
3
CN 115310133 A
3
专利 一种基于差分隐私的决策树集成训练方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:28上传分享