(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211045518.8
(22)申请日 2022.08.30
(71)申请人 中国银行股份有限公司
地址 100818 北京市西城区复兴门内大街1
号
(72)发明人 王海洋
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 张东梅
(51)Int.Cl.
G06F 21/62(2013.01)
G06K 9/62(2022.01)
G06Q 40/02(2012.01)
(54)发明名称
一种文件脱 敏方法及 装置、 存储介质及电子
设备
(57)摘要
本申请提供了一种文件脱 敏方法及装置、 存
储介质及电子设备, 可应用于 金融领域或其他领
域, 通过预设包括多个敏感字段的敏感字段库和
包括多个关键字段的关键字段库, 关键字段库基
于对敏感字段库包括的各个敏感字段进行关键
字段抽取得到的关键字段所构建, 从而基于敏 感
字段库和关键字段库, 可以识别出目标文件包括
的各个数据字段中的第一待脱敏字段和第二待
脱敏字段, 进而利用每个第一待脱敏字段匹配的
敏感字段所对应的脱 敏规则, 对每个第一待脱 敏
字段进行脱敏处理, 利用每个第二待脱敏字段匹
配的关键字段所属的敏感字段所对应的脱敏规
则, 对每个第二待脱敏字段进行脱敏处理, 得到
目标脱敏文件, 实现了自动对目标文件进行脱 敏
处理, 提高了脱敏效率。
权利要求书2页 说明书10页 附图3页
CN 115391824 A
2022.11.25
CN 115391824 A
1.一种文件脱敏 方法, 其特 征在于, 包括:
获取目标文件; 其中, 所述目标文件为待 脱敏的表格文件;
识别所述目标文件中包括的数据字段;
针对所述目标文件包括的每个数据字段, 若预设的敏感字段库中存在与所述数据字段
相匹配的敏感字段, 则将所述数据字段作为第一待脱敏字段, 若不存在与所述数据字段相
匹配的预设的敏感字段, 则判断预设的关键字段库中是否存在与所述数据字段相匹配的关
键字段, 若存在与所述数据字段相匹配的关键字段, 则将所述数据字段作为第二待脱敏字
段; 其中, 所述关键字段库基于对所述敏感字段库包括的各个敏感字段进行关键字段抽取
得到的关键 字段所构建;
利用每个第 一待脱敏字段匹配的敏感字段所对应的脱敏规则, 对所述目标文件中包括
的每个第一待 脱敏字段进行脱敏处 理, 得到初始脱敏文件;
利用每个第 二待脱敏字段匹配的关键字段所属的敏感字段所对应的脱敏规则, 对所述
初始脱敏文件 包括的每 个第二待 脱敏字段进行脱敏处 理, 得到目标脱敏文件。
2.根据权利要求1所述的方法, 其特征在于, 所述判断预设的关键字段库中是否存在与
所述数据字段相匹配的关键 字段, 包括:
分别对预设的关键字段库包括的每个关键字段与 所述数据字段进行相似度计算, 得到
每个关键字段对应的相似度;
从每个关键字段对应的相似度中确定数值 最大的相似度;
判断数值 最大的相似度是否大于预设的相似度阈值;
若数值最大的相似度 大于预设的相似度阈值, 则将数值最大的相似度对应的关键字段
作为所述数据字段相匹配的关键字段, 并确定出预设的关键字段库中存在与所述数据字段
相匹配的关键 字段;
若数值最大的相似度不大于预设的相似度阈值, 则确定出预设的关键字段库中不存在
与所述数据字段相匹配的关键 字段。
3.根据权利要求2所述的方法, 其特征在于, 所述分别对预设的关键字段库包括的每个
关键字段与所述数据字段进行相似度计算, 得到每 个关键字段对应的相似度, 包括:
利用编辑距离算法, 分别对预设的关键字段库包括的每个关键字段与 所述数据字段进
行相似度计算, 得到每 个关键字段对应的相似度。
4.根据权利要求2所述的方法, 其特征在于, 所述分别对预设的关键字段库包括的每个
关键字段与所述数据字段进行相似度计算, 得到每 个关键字段对应的相似度, 包括:
根据欧氏距离计算公式, 分别对预设的关键字段库包括的每个关键字段与 所述数据字
段进行相似度计算, 得到每 个关键字段对应的相似度。
5.一种文件脱敏装置, 其特 征在于, 包括:
获取单元, 用于获取目标文件; 其中, 所述目标文件为待 脱敏的表格文件;
识别单元, 用于识别所述目标文件中包括的数据字段;
判断单元, 用于针对所述目标文件包括的每个数据字段, 若预设的敏感字段库中存在
与所述数据字段相匹配的敏感字段, 则将所述数据字段作为第一待脱敏字段, 若不存在与
所述数据字段相匹配的预设的敏感字段, 则判断预设的关键字段库中是否存在与所述数据
字段相匹配的关键字段, 若存在与所述数据字段相匹配的关键字段, 则将所述数据字段作权 利 要 求 书 1/2 页
2
CN 115391824 A
2为第二待脱敏字段; 其中, 所述关键字段库基于对所述敏感字段库包括的各个敏感字段进
行关键字段抽取 得到的关键 字段所构建;
第一脱敏单元, 用于利用每个第一待脱敏字段匹配的敏感字段所对应的脱敏规则, 对
所述目标文件中包括的每 个第一待 脱敏字段进行脱敏处 理, 得到初始脱敏文件;
第二脱敏单元, 用于利用每个第 二待脱敏字段匹配的关键字段所属的敏感字段所对应
的脱敏规则, 对所述初始脱敏文件包括的每个第二待脱敏字段进行脱敏处理, 得到目标脱
敏文件。
6.根据权利要求5所述的装置, 其特征在于, 所述判断单元在判断预设的关键字段库中
是否存在与所述数据字段相匹配的关键 字段时, 具体用于:
分别对预设的关键字段库包括的每个关键字段与 所述数据字段进行相似度计算, 得到
每个关键字段对应的相似度;
从每个关键字段对应的相似度中确定数值 最大的相似度;
判断数值 最大的相似度是否大于预设的相似度阈值;
若数值最大的相似度 大于预设的相似度阈值, 则将数值最大的相似度对应的关键字段
作为所述数据字段相匹配的关键字段, 并确定出预设的关键字段库中存在与所述数据字段
相匹配的关键 字段;
若数值最大的相似度不大于预设的相似度阈值, 则确定出预设的关键字段库中不存在
与所述数据字段相匹配的关键 字段。
7.根据权利要求6所述的装置, 其特征在于, 所述判断单元在 分别对预设的关键字段库
包括的每个关键字段与所述数据字段进行相似度计算, 得到每个关键字段对应的相似度
时, 具体用于:
利用编辑距离算法, 分别对预设的关键字段库包括的每个关键字段与 所述数据字段进
行相似度计算, 得到每 个关键字段对应的相似度。
8.根据权利要求6所述的装置, 其特征在于, 所述判断单元在 分别对预设的关键字段库
包括的每个关键字段与所述数据字段进行相似度计算, 得到每个关键字段对应的相似度
时, 具体用于:
根据欧氏距离计算公式, 分别对预设的关键字段库包括的每个关键字段与 所述数据字
段进行相似度计算, 得到每 个关键字段对应的相似度。
9.一种存储介质, 其特征在于, 所述存储介质存储有指令集, 其中, 所述指令集被处理
器执行时实现如权利要求1 ‑4任意一项所述的文件脱敏 方法。
10.一种电子设备, 其特 征在于, 包括:
存储器, 用于存 储至少一组指令集;
处理器, 用于执行所述存储器中存储的指令集, 通过执行所述指令集实现如权利要求
1‑4任意一项所述的文件脱敏 方法。权 利 要 求 书 2/2 页
3
CN 115391824 A
3
专利 一种文件脱敏方法及装置、存储介质及电子设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:28上传分享