专利 一种基于差分隐私的决策树集成训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211039387.2 (22)申请日 2022.08.29 (71)申请人上海大学地址 200444 上海市宝山区上大路99号 (72)发明人钱权　李莹婕　冯燕　 (74)专利代理机构北京方圆嘉禾知识产权代理有限公司 1 1385 专利代理师王月松 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) G06N 5/00(2006.01) (54)发明名称一种基于差分隐私的决策树集成训练方法及装置 (57)摘要本发明涉及一种基于差分隐私的决策树集成训练方法及装置，本发明的方法及装置基于指数机制对训练数据中需要隐私保护的特征进行保护处理，基于拉普拉斯机制对训练后的本地决策树模型中的叶子节点进行保护处理，避免了因模型反向推导而造成的隐私数据的泄露的的问题。权利要求书3页说明书9页附图3页 CN 115310133 A 2022.11.08 CN 115310133 A 1.一种基于差分隐私的决策树集成训练方法，其特征在于，所述方法应用于分布式集成系统，所述分布式集群系统包括服务器和与服务器连接的多个客户端，每个所述客户端拥有不同的隐私数据集合，所述隐私数据集合用于所述决策树模型的训练，所述隐私数据集合中的隐私数据为材料的加工参数数据和性能参数数据，所述方法包括如下步骤：获取服务器发送的客户端的隐私预算和另一客户端训练完成后得到的全局决策树模型；从本地训练数据集合中选取需要隐私保护的训练数据，构建重要特征集合；所述本地训练数据集合为所述隐私数据集合中的子集；根据客户端的隐私预算，利用指数机制对训练数据中需要隐私保护的特征进行保护处理，获得处理后的训练数据；利用所述处理后的训练数据对所述全局决策树模型进行训练，获得训练后的本地决策树模型；根据客户端的隐私预算，利用拉普拉斯机制对训练后的本地决策树模型中的叶子节点进行保护处理，获得处理后的本地决策树模型，并将处理后的本地决策树模型发送给服务器。 2.根据权利要求1所述的基于差分隐私的决策树集成训练方法，其特征在于，所述本地训练数据集合采用如下方式获取：采用随机抽样的方式从所述隐私数据集合中获取多个隐私数据；将多个所述隐私数据作为训练数据，构建本地训练数据集合。 3.根据权利要求1所述的基于差分隐私的决策树集成训练方法，其特征在于，所述从本地训练数据集合中选取需要隐私保护的训练数据，构建重要特征集合，具体包括：利用如下公式构建第一特征集合； feature∈IP,if|Vf|≤n·ζ；其中， feature为训练数据中的特征， IP为第一特征集合， Vf为所有训练数据中的特征 feature的特征值的集合； n为本地训练数据集合中训练数据的个数， ζ为训练数据的不完全隐私指数；根据专家经验构建第二特征集合；获取所述第一特征集合和所述第二特征集合的并集作为所述重要特征集合。 4.根据权利要求1所述的基于差分隐私的决策树集成训练方法，其特征在于，所述根据客户端的隐私预算，利用指数机制对训练数据中需要隐私保护的特征进行保护处理，获得处理后的训练数据，具体包括：根据客户端的隐私预算，利用如下公式计算内部节点的隐私预算；其中， εnonleaf为内部节点的隐私预算， MaxD epth为决策树模型训练的最大深度值，为第k个训练周期中第m个客户端的隐私预算；根据内部节点的隐私预算，利用如下公式计算需要隐私保护的特征的概率指数值作为需要隐私保护的特征的处理后的特征值；权　利　要　求　书 1/3 页 2 CN 115310133 A 2其中， Pbvalue为需要隐私保护的特征的概率指数值， bvalue为需要隐私保护的特征的特征值， Δ表示需要隐私保护的特征的特征值增量， Gbvalue为需要隐私保护的特征的增益。 5.根据权利要求1所述的基于差分隐私的决策树集成训练方法，其特征在于，所述根据客户端的隐私预算，利用拉普拉斯机制对训练后的本地决策树模型中的叶子节点进行保护处理，获得处理后的本地决策树模型，具体包括：根据客户端的隐私预算，利用如下公式计算叶子节点的隐私预算；其中， εleaf为叶子节点的隐私预算，为第k个训练周期中第m个客户端的隐私预算；根据叶子节点的隐私预算，利用拉普拉斯机制，采用如下公式对训练后的本地决策树模型中的叶子节点进行保护处理；其中， w'j为处理后的第j个叶子节点的权重， Ij为用于训练第j个叶子节点的处理后的训练数据的集合， gi和hi分别为第i个处理后的训练数据对应的损失函数值的一阶和二阶梯度统计量， εleaf为叶子节点的隐私预算， λ为已知参数。 6.一种基于差分隐私的决策树集成训练装置，其特征在于，所述装置应用于分布式集成系统，所述分布式集群系统包括服务器和与服务器连接的多个客户端，每个所述客户端拥有不同的隐私数据集合，所述隐私数据集合用于所述决策树模型的训练，所述隐私数据集合中的隐私数据为材料的加工参数数据和性能参数数据，所述装置包括：数据获取模块，用于获取服务器发送的客户端的隐私预算和另一客户端训练完成后得到的全局决策树模型；需要隐私保护的特征选取模块，用于从本地训练数据集合中选取需要隐私保护的训练数据，构建重要特征集合；所述本地训练数据集合为所述隐私数据集合中的子集；特征保护处理模块，用于根据客户端的隐私预算，利用指数机制对训练数据中需要隐私保护的特征进行保护处理，获得处理后的训练数据；训练模块，用于利用所述处理后的训练数据对所述全局决策树模型进行训练，获得训练后的本地决策树模型，根据客户端的隐私预算，利用拉普拉斯机制对训练后的本地决策树模型中的叶子节点进行保护处理，获得处理后的本地决策树模型，并将处理后的本地决策树模型发送给服务器。 7.根据权利要求6所述的基于差分隐私的决策树集成训练装置，其特征在于，所述本地训练数据集合采用如下方式获取：采用随机抽样的方式从所述隐私数据集合中获取多个隐私数据；将多个所述隐私数据作为训练数据，构建本地训练数据集合。 8.根据权利要求6所述的基于差分隐私的决策树集成训练装置，其特征在于，所述需要权　利　要　求　书 2/3 页 3 CN 115310133 A 3

专利 一种基于差分隐私的决策树集成训练方法及装置

专利一种基于差分隐私的决策树集成训练方法及装置