standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210805526.1 (22)申请日 2022.07.08 (71)申请人 北京沃东天骏信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 李松衍  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 李昂 吴素花 (51)Int.Cl. G06F 21/71(2013.01) G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称 数据隐私保护方法、 装置、 设备及计算机可 读存储介质 (57)摘要 本申请提供一种数据隐私保护方法、 装置、 设备及计算机可读存储介质, 所述方法包括: 获 取动态数据集, 所述动态数据集为终端运行应用 程序时产生的连续数据集; 基于预设时间窗口对 所述连续数据集进行预处理, 得到待处理数据 集; 基于分类树对所述待处理数据集进行隐私保 护处理, 得到待发布数据集; 将所述待发布数据 集发布至服务端。 通过分类树对每个时间窗口对 应的待处理数据集进行隐私保护处理, 能够确保 各待发布数据的隐私保护水平、 缩短延时, 且不 会损伤数据可用性, 实现应用程序收集数据的隐 私保护。 权利要求书3页 说明书14页 附图6页 CN 115130150 A 2022.09.30 CN 115130150 A 1.一种数据隐私保护方法, 其特 征在于, 所述方法包括: 获取动态数据集, 所述动态数据集 为终端运行应用程序时产生的连续数据集; 基于预设时间窗口对所述连续数据集进行 预处理, 得到待处 理数据集; 基于分类树对所述待处 理数据集进行隐私保护处 理, 得到待发布数据集; 将所述待发布数据集发布至服 务端。 2.根据权利要求1所述的方法, 其特征在于, 所述基于预设时间窗口对所述连续数据集 进行预处理, 得到待处 理数据集, 包括: 按照预设时间窗口对所述连续数据集进行划分, 得到各时间窗口对应的数据集; 从所述各时间窗口中选择一个时间窗口, 将所述一个时间窗口对应的数据集进行抽样 处理, 得到抽样数据集; 将所述抽样数据集确定为待处 理数据集。 3.根据权利要求1所述的方法, 其特征在于, 所述基于分类树对所述待处理数据集进行 隐私保护处 理, 得到待发布数据集, 包括: 利用所述待处理数据集构建初始分类树, 所述待处理数据集包括的每条数据的关键字 为所述初始分类树的一个叶子节点; 利用隐私保护技术, 对所述初始分类树的各叶子节点对应的关键字分配噪声, 得到目 标分类树; 根据所述目标分类树的各叶子节点对应的关键 字, 确定待发布数据集。 4.根据权利要求1所述的方法, 其特征在于, 所述基于预设时间窗口对所述连续数据集 进行预处理, 得到待处 理数据集, 包括: 按照预设时间窗口对所述连续数据集进行划分, 得到各时间窗口对应的数据集; 从所述各时间窗口中选择一个时间窗口, 将所述一个时间窗口对应的数据进行分层处 理, 得到多个分层数据集; 对所述多个分层数据集分别进行抽样处 理, 得到多个分层的抽样数据集; 根据所述多个分层的抽样数据集, 确定待处 理数据集。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述多个分层数据集分别进行抽样 处理, 得到多个分层的抽样数据集, 包括: 按照各分层数据集包括的分层数据的产生时间, 确定各分层数据集的抽样比例; 按照各分层数据集的抽样比例, 对各分层数据集包括的分层数据分别进行抽样处理, 得到多个分层的抽样数据集。 6.根据权利要求1所述的方法, 其特征在于, 所述基于分类树对所述待处理数据集进行 隐私保护处 理, 得到待发布数据集, 包括: 利用第一分层的抽 样数据集包括的各抽 样数据构建初始分类树, 所述第 一分层为分层 数据产生时间最长的分层, 所述各抽样数据的关键 字为所述初始分类树的一个叶子节点; 利用隐私保护技术, 对所述初始分类树的各叶子节点对应的关键字分配噪声, 得到隐 私保护后的分类树; 利用除第一分层 之外的剩余分层的抽 样数据集和隐私保护技术, 对所述隐私保护后的 分类树进行 更新, 得到目标分类树; 根据所述目标分类树的各叶子节点对应的关键 字, 确定待发布数据集。权 利 要 求 书 1/3 页 2 CN 115130150 A 27.根据权利要求6所述的方法, 其特征在于, 所述利用第 一分层的抽 样数据集包括的各 抽样数据构建初始分类树, 包括: 获取预先构建的信息增益 函数; 基于第一分层的抽 样数据集包括的各抽 样数据和所述信 息增益函数, 确定初始分类树 的最优阶数; 基于第一分层的抽 样数据集包括的各抽 样数据的关键字和所述最优阶数, 构建初始分 类树。 8.一种数据隐私保护装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取动态数据集, 所述动态数据集为终端运行应用程序时产生的连续 数据集; 预处理模块, 用于基于预设时间窗口对所述连续数据集进行预处理, 得到待处理数据 集; 隐私保护处理模块, 用于基于分类树对所述待处理数据集进行隐私保护处理, 得到待 发布数据集; 发布模块, 用于将所述待发布数据集发布至服 务端。 9.根据权利要求8所述的装置, 其特 征在于, 所述预处 理模块, 包括: 第一划分单元, 用于按照预设时间窗口对所述连续数据集进行划分, 得到各时间窗口 对应的数据集; 第一抽样单元, 用于从所述各时间窗口中选择一个时间窗口, 将所述一个时间窗口对 应的数据集进行抽样处 理, 得到抽样数据集; 第一确定单 元, 用于将所述抽样数据集确定为待处 理数据集。 10.根据权利要求8所述的装置, 其特 征在于, 所述隐私保护处 理模块, 包括: 第一构建单元, 用于利用所述待处理数据集构建初始分类树, 所述待处理数据集包括 的每条数据的关键 字为所述初始分类树的一个叶子节点; 第一分配单元, 用于利用隐私保护技术, 对所述初始分类树的各叶子节点对应的关键 字分配噪声, 得到目标分类树; 第二确定单元, 用于根据所述目标分类树的各叶子节点对应的关键字, 确定待发布数 据集。 11.根据权利要求8所述的装置, 其特 征在于, 所述预处 理模块, 包括: 第二划分单元, 用于按照预设时间窗口对所述连续数据集进行划分, 得到各时间窗口 对应的数据集; 分层单元, 用于从所述各时间窗口中选择一个时间窗口, 将所述一个时间窗口对应的 数据进行分层处 理, 得到多个分层数据集; 第二抽样单元, 用于对所述多个分层数据集分别进行抽样处理, 得到多个分层的抽样 数据集; 第三确定单 元, 用于根据所述多个分层的抽样数据集, 确定待处 理数据集。 12.根据权利要求1 1所述的装置, 其特 征在于, 所述分层单 元, 包括: 第一确定子单元, 用于按照各分层数据集包括的分层数据的产生时间, 确定各分层数 据集的抽样比例;权 利 要 求 书 2/3 页 3 CN 115130150 A 3

PDF文档 专利 数据隐私保护方法、装置、设备及计算机可读存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据隐私保护方法、装置、设备及计算机可读存储介质 第 1 页 专利 数据隐私保护方法、装置、设备及计算机可读存储介质 第 2 页 专利 数据隐私保护方法、装置、设备及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:35:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。