standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210899031.X (22)申请日 2022.07.28 (71)申请人 上海光之树科技有限公司 地址 200433 上海市杨 浦区国和路6 0号 (72)发明人 张子扬 张珣 袁晨 张佳辰  (74)专利代理 机构 广州鼎贤知识产权代理有限 公司 44502 专利代理师 刘莉梅 (51)Int.Cl. G06F 16/9535(2019.01) G06F 21/60(2013.01) G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称 基于双方数据隐私保护的目标样本推荐方 法 (57)摘要 本发明公开了一种基于双方数据隐私保护 的目标样 本推荐方法, 数据方在本地计算数据库 中的每条候选样本与需求方提供的进行联邦学 习的每条训练样本的相似度, 由于在联邦学习环 境下, 数据方无法知晓需求方提供的每条训练样 本对应的样 本标签, 因此无法判断参与相似度计 算的训练样 本是否为需求方现有的真实客户, 保 护了需求方的已有真实客户信息不泄露; 同时由 于样本相似度计算在数据方的本地进行, 需求方 同样无法获知参与相似度计算的各候选样本的 具体信息, 保证了数据方的非目标样本信息不泄 露。 另外, 在目标样本预测阶段, 数据方通过 XGBoost模型仅将预测为正例的拟推荐样本作为 目标样本推荐给需求方, 确保了拟推荐样本中的 非目标样本的数据信息不泄 露。 权利要求书1页 说明书7页 附图8页 CN 115269983 A 2022.11.01 CN 115269983 A 1.一种基于双方 数据隐私保护的目标样本推荐方法, 其特 征在于, 步骤 包括: S1, 数据方根据需求方提供的训练样本id进行联邦学习, 得到经同态加密算法加密后 的XGBoost模型作为联邦学习模型; S2, 在联邦学习环境下, 所述数据方计算其本地数据库中的每条候选样本与所述需求 方提供的进行联邦学习的每条训练样本的相似度, 按照相似度由高到低对候选样本进 行排 序筛选, 得到M条拟推荐样本; S3, 所述数据方在本地利用步骤S1训练的所述联邦学习模型对M条所述拟推荐样本进 行分类预测, 并将预测为 正例的若干条 所述拟推荐样本作为目标样本推荐给 所述需求方。 2.根据权利要求1所述的基于双方数据隐私保护的目标样本推荐方法, 其特征在于, 所 述需求方提供 的进行联邦学习的所述训练样本包括作为正例的目标领域下的客户群体的 数据样本和作为负例的非目标 领域下的客户群 体的数据样本 。 3.根据权利要求1所述的基于双方数据隐私保护的目标样本推荐方法, 其特征在于, 步 骤S1中所述的同态加密算法包括pai llier同态加密算法。 4.根据权利要求1所述的基于双方数据隐私保护的目标样本推荐方法, 其特征在于, 步 骤S2中, 采用余弦相似度计算每条 所述候选样本与每条 所述训练样本的相似度。 5.根据权利要求3所述的基于双方数据隐私保护的目标样本推荐方法, 其特征在于, 步 骤S1中, 采用所述pai llier同态加密算法对所述XGBo ost模型进行加密的方法步骤 包括: S11, 所述 需求方生成paillier 公私钥, 并保存至本地, 在每棵树构建前, 所述 需求方根 据本地的样本标签真实值与当前样本预测值对每条样本计算一阶导与二阶导具体数值, 并 通过本地 生成的pai llier公钥进行加密; S12: 所述需求方将加密后的样本一阶导二阶导发送至所述数据 方, 在每个树节点分裂 信息的计算中, 所述数据方针对本地的每个特征 的每个可分裂点, 计算当前分裂点分裂后 生成的左、 右子节点样本的一阶导二阶导密文的求和 值, 并将求和值密文统一发送至所述 需求方; S13: 所述需求方对所述 求和值密文通过本地保存的私钥进行解密, 得到对应明文。权 利 要 求 书 1/1 页 2 CN 115269983 A 2基于双方数据隐私 保护的目标样本推荐方 法 技术领域 [0001]本发明涉及 客群拓展技术领域, 具体涉及 一种基于双方数据隐私保护的目标样本 推荐方法。 背景技术 [0002]目前, 企业拓客主 要采取数据购买和服 务购买两种方式: [0003]第一种为: 数据购买, 即作为拓客需求方的企业(以下简称 “需求方”)在作为数据 持有方的数据服务商(以下简称 “数据方”)购买全部的潜在客群样本数据, 然后在本地采用 样本相似度计算方法从全部的潜在客群样本数据中匹配出与现有客户相似度高的目标样 本。 在该方案中, 数据方将自己所拥有的所有数据或大量数据明文公开给需求方。 该方案的 缺点是显而易见的: 对于需求方来说, 购买全量的样本数据需要 更高的购买成本, 且全量数 据中需求方的目标样本的数量占比可能较低, 购买全量数据性价比不高。 而对于数据方而 言, 将全量数据以明文方式提供给需求方, 使得一些非目标样本的数据信息同时公开给需 求方, 造成数据信息泄 露。 [0004]第二种为: 服务购买, 即需求方将自己的现有客户信息数据提供给数据方, 数据方 根据需求方提供的数据提取其现有客户的客户特征, 然后以这些客户特征为样本训练相似 度计算模型, 再利用所训练的该相似度计算模型对数据库中的所有样本进行相似度计算, 并将相似度高的若干新客户名单交给需求方。 该方案的缺点是: 需求方需要将现有客户信 息数据对数据方公开, 对需求方而言, 同样会造成信息泄 露。 [0005]综上, 数据购买方式中, 数据方希望仅将目标样本的数据公开给需求方, 而同时确 保全量数据中的非目标样本的数据隐私不泄露; 服务购买方式中, 需求方则希望 自己现有 的客户信息数据不要被数据方获取, 从而保护企业现有的客户信息不 公开。 因此, 如何同时 满足需求方和数据方在上述应用场景中的数据隐私不泄露成为该领域亟待解决的技术问 题。 发明内容 [0006]本发明以确保需求方和数据方双方的数据隐私不泄露, 提高数据交易安全性为目 的, 提供了一种基于双方 数据隐私保护的目标样本推荐方法。 [0007]为达此目的, 本发明采用以下技 术方案: [0008]提供一种基于双方 数据隐私保护的目标样本推荐方法, 步骤 包括: [0009]S1, 数据方根据需求方提供的训练样本id进行联邦学习, 得到经同态加密算法加 密后的XGBo ost模型作为联邦学习模型; [0010]S2, 在联邦学习环境下, 所述数据方计算其本地数据库中的每条候选样本与所述 需求方提供的进 行联邦学习的每条训练样本的相似度, 按照相似度由高到低对候选样本进 行排序筛 选, 得到M条拟推荐样本; [0011]S3, 所述数据方在本地利用步骤S1训练的所述联邦学习模型对M条所述拟推荐样说 明 书 1/7 页 3 CN 115269983 A 3

PDF文档 专利 基于双方数据隐私保护的目标样本推荐方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于双方数据隐私保护的目标样本推荐方法 第 1 页 专利 基于双方数据隐私保护的目标样本推荐方法 第 2 页 专利 基于双方数据隐私保护的目标样本推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。