(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211086676.8
(22)申请日 2022.09.06
(71)申请人 北京京东振世信息技 术有限公司
地址 100086 北京市海淀区知春路76号6层
(72)发明人 齐霖
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 孙蕾
(51)Int.Cl.
G06F 21/62(2013.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
数据脱敏 方法、 装置、 设备及 介质
(57)摘要
本公开提供了一种数据脱 敏方法, 可以应用
于人工智能技术领域和大数据技术领域。 该方法
包括对初始运营数据进行编码处理, 得到运营编
码数据序列, 其中, 初始运营数据包括运营时序
性数据; 对运营编码数据序列进行特征提取, 得
到第一特征编码信息集, 其中, 第一特征编码信
息集中的第一特征编码信息包括第一特征查询
编码信息; 以及将第一特征编码信息集和运营编
码数据序列输入至目标解码器, 以便目标解码器
基于注意力机制处理第一特征查询编码信息和
运营编码数据序列, 得到与初始运营数据相关联
的脱敏运营数据。 本公开还提供了一种数据脱 敏
装置、 电子设备、 计算机可读存储介质和计算机
程序产品。
权利要求书3页 说明书18页 附图8页
CN 115422590 A
2022.12.02
CN 115422590 A
1.一种数据脱敏 方法, 包括:
对初始运营数据进行编码处理, 得到运营编码数据序列, 其中, 所述初始运营数据包括
运营时序性数据;
对所述运营编码数据序列进行特征提取, 得到第 一特征编码信 息集, 其中, 所述第一特
征编码信息集中的第一特 征编码信息包括第一特 征查询编码信息; 以及
将所述第一特征编码信 息集和所述运营编码数据序列输入至目标解码器, 以便所述目
标解码器基于注意力机制处理所述第一特征查询编 码信息和所述运营编码数据序列, 得到
与所述初始运营 数据相关联的脱敏运营 数据。
2.根据权利要求1所述的方法, 其中, 所述目标解码器包括顺序连接的第二位置嵌入
层、 解码器第一注意力层和解码器第二注意力层;
将所述第一特征编码信 息集和所述运营编码数据序列输入至目标解码器, 得到与 所述
初始运营 数据相关联的脱敏运营 数据包括:
将所述运营编码数据序列中的运营编码数据输入至所述第 二位置嵌入层, 输出第 二位
置编码信息;
利用解码器第 一注意力层处理所述第 二位置编码信 息, 得到与 所述运营编码数据相关
联的第二特 征编码信息;
根据所述第二特 征编码信息构建第二特 征编码信息集; 以及
利用所述解码器第二注意力层处理所述第二特征编码信息集和所述第一特征编码信
息集中的第一特 征查询编码信息, 得到与所述初始运营 数据相关联的脱敏运营 数据。
3.根据权利要求2所述的方法, 其中, 所述第二特征编码信息集包括第二特征编码信
息, 所述第二特征编 码信息包括第二特征查询编码信息和与所述第二特征查询编 码信息关
联的第二特 征键编码信息, 所述 解码器第二注意力层包括第二注意力子层;
利用所述解码器第二注意力层处理所述第二特征编码信息集和所述第一特征编码信
息集, 得到与所述初始运营 数据相关联的脱敏运营 数据包括:
对所述第二特征查询编码信息, 以及所述第二特征键编码信息分别进行哈希处理, 得
到第二特 征查询哈希值和第二特 征键哈希值;
根据所述第 二特征查询哈希值和所述第 二特征键哈希值的相似度距离, 确定与所述第
一特征查询编码信息关联的目标第二特 征编码信息;
所述第二注意力子层基于所述第一特征查询编码信息和所述目标第二特征编码信息
形成的局部注意力机制, 处理所述第一特征查询编码信息和所述 目标第二特征编码信息,
得到注意力特 征信息;
对所述注意力特 征信息进行分类预测, 得到目标 预测类别;
根据所述目标 预测类别, 确定与所述初始运营 数据相关联的脱敏运营 数据。
4.根据权利要求3所述的方法, 其中, 根据 所述第二特征查询哈希值和所述第 二特征键
哈希值的相似度 距离, 确定与所述第一特征查询编 码信息关联的目标第二特征编 码信息包
括:
计算所述第 二特征查询哈希值和所述第 二特征键哈希值的相似度距离, 确定与所述第
二特征查询编码信息相似的候选第二特 征键编码信息;
将所述候选第二特 征键编码信息存 储于同一个哈希桶;权 利 要 求 书 1/3 页
2
CN 115422590 A
2利用哈希 表确定与所述第一特 征查询编码信息相似的目标哈希桶;
根据预设注意力规则, 从所述目标哈希桶中确定与所述第 一查询特征编码信 息关联的
目标第二特 征编码信息 。
5.根据权利要求1所述的方法, 其中, 对所述运营编码数据序列进行特征提取, 得到第
一特征编码信息集包括:
将所述运营编码数据序列中的运营编码数据输入至第 一位置嵌入层, 输出第 一位置编
码信息;
利用编码器注意力层处理所述第 一位置编码信 息, 得到与所述运营编码数据相关联的
第一特征编码信息; 以及
根据所述第一特 征编码信息, 构建所述第一特 征编码信息集。
6.根据权利要求1所述的方法, 其中, 所述目标解码器包括第 二位置嵌入层和解码器第
一注意力层;
对所述运营编码数据 序列进行 特征提取, 得到第一特 征编码信息集包括:
将所述运营编码数据序列中的运营编码数据输入至第 二位置嵌入层, 输出第 一位置编
码信息;
利用解码器第 一注意力层处理所述第 一位置编码信 息, 得到与 所述运营编码数据相关
联的第一特 征编码信息 。
7.根据权利要求1所述的方法, 其中, 所述初始运营 数据还包括运营描述 性数据;
对初始运营 数据进行编码处 理, 得到运营编码数据 序列包括:
将所述运营描述 性数据输入至第一编码模型, 输出第一 运营编码数据;
将所述运营时序性数据输入至第二编码模型, 输出第二 运营编码数据; 以及
按照预设规则, 根据所述第一运营编码数据与所述第二运营编码数据, 构建所述运营
编码数据 序列。
8.根据权利要求7所述的方法, 其中, 按照预设规则, 根据所述第一运营编码数据与所
述第二运营编码数据, 构建所述 运营编码数据 序列包括:
根据目标时间属性信息, 从所述第一运营编码数据中确定目标第一运营编码数据, 以
及从所述第二运营编码数据中确定目标第二运营编码数据, 其中, 所述 目标第一运营编码
数据和所述目标第二 运营编码数据具有相同的所述目标时间属性信息;
根据所述目标第一运营编码数据和所述目标第二运营编码数据, 构建运营编码数据;
以及
在所述运营编码数据包括多个的情况下, 按照预设拼接规则拼接所述运营编码数据,
得到所述 运营编码数据 序列。
9.根据权利要求1至8中任一项所述的方法, 还 包括:
对所述脱敏运营 数据进行 数据分析, 得到针对所述初始运营 数据的数据分析 结果。
10.一种数据脱敏装置, 包括:
编码模块, 用于对初始运营数据进行编码处理, 得到运营编码数据序列, 其中, 所述初
始运营数据包括 运营时序性数据;
特征提取模块, 用于对所述运营编码数据序列进行特征提取, 得到第一特征编码信息
集, 其中, 所述第一特征编 码信息集中的第一特征编码信息包括第一特征查询编 码信息; 以权 利 要 求 书 2/3 页
3
CN 115422590 A
3
专利 数据脱敏方法、装置、设备及介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:22上传分享