专利 海量数据中识别目标类型数据的方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210790536.2 (22)申请日 2022.07.05 (71)申请人上海淇毓信息科技有限公司地址 201500 上海市崇明区横沙乡富民支路58号A1-5962室（上海横泰经济开发区） (72)发明人付彪　宋荣鑫　黄建庭　黄龙　 (74)专利代理机构北京清诚知识产权代理有限公司 11691 专利代理师宋红艳 (51)Int.Cl. G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称海量数据中识别目标类型数据的方法及装置 (57)摘要本发明公开了一种海量数据中识别目标类型数据的方法、装置及电子设备，所述方法包括：根据数据仓库中数据表类型对应的抽样规则从数据表n个字段中分别抽取n个样本数据；将第i 样本数据输入至字段识别模型的M个接口，得到第i样本数据在M个预设字段类型上的识别结果；根据第i样本数据在M个预设字段类型上的识别结果确定第i个字段判定为M个预设字段类型的概率；根据所述概率识别目标类型字段。本发明根据第i个字段判定为M个预设字段类型的概率从整体上识别目标类型字段，使识别结果更能反映字段抽样值整体的概率，而不仅仅是字段抽样值，使目标类型字段识别结果更为准确，加强了对敏感数据安全的保护，有效地避免敏感数据泄漏。权利要求书3页说明书12页附图3页 CN 115310514 A 2022.11.08 CN 115310514 A 1.一种海量数据中识别目标类型数据的方法，其特征在于，所述方法包括：根据数据仓库中数据表类型对应的抽样规则从数据表n个字段中分别抽取n个样本数据；将第i样本数据输入至字段识别模型的M个接口，得到第i样本数据在M个预设字段类型上的识别结果；其中：字段识别模型的每个接口对应识别一个预设字段类型；根据第i样本数据在M个预设字段类型上的识别结果确定第i个字段判定为M个预设字段类型的概率；根据所述概率识别目标类型字段；其中： M、 n、 i均为大于零的自然数，且i小于等于n。 2.根据权利要求1所述的方法，其特征在于，样本数据为json格式；所述将第i样本数据输入至字段识别模型的M个接口，得到第i样本数据在M个预设字段类型上的识别结果包括：将第i样本数据根据jso n结构进行拆解，得到第i样本数据的多个主键值；将每个主键值输入至字段识别模型的M个接口，得到每个主键值在M个预设字段类型上的识别结果；根据每个主键值在M个预设字段类型上的识别结果确定第 i样本数据在M个预设字段类型上的识别结果。 3.根据权利要求1或2所述的方法，其特征在于，第i个字段判定为第j个预设字段类型的概率qij通过如下公式获取：其中： N1ij为第i个样本数据在第j个预设字段类型上的识别结果为第一识别结果的样本个数， N 为第i个样本数据的总个数， j为大于零且小于等于 M的自然数。 4.根据权利要求3所述的方法，其特征在于，所述方法还包括：配置每个预设字段类型的概率阈值；判断目标类型字段判定为第j个预设字段类型的概率是否大于第j个预设字段类型的概率阈值；若大于，根据所述第j个预设字段类型标记目标类型字段的类型；根据所述类型对所述目标类型字段进行脱敏处理。 5.根据权利要求1所述的方法，其特征在于，所述数据表包括：分区表和非分区表；对非分区表采用第一抽样规则从数据表n个字段中分别抽取n个样本数据；对分区表按照分区顺序依次从各个分区的n个字段分别中抽取n个样本数据。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据目标类型字段提取目标类型数据表，并对所述目标类型数据表配置多层级的审批机制；和/或：对目标类型字段进行脱敏处理。 7.一种海量数据中识别目标类型数据的装置，其特征在于，所述装置包括：抽样模块，用于根据数据仓库中数据表类型对应的抽样规则从数据表n个字段中分别抽取n个样本数据；权　利　要　求　书 1/3 页 2 CN 115310514 A 2第一识别模块，用于将第i样本数据输入至字段识别模型的M个接口，得到第i样本数据在M个预设字段类型上的识别结果；其中：字段识别模型的每个接口对应识别一个预设字段类型；确定模块，用于根据第i样本数据在M个预设字段类型上的识别结果确定第i个字段判定为M个预设字段类型的概率；第二识别模块，用于根据所述概率识别目标类型字段；其中： M、 n、 i均为大于零的自然数，且i小于等于n。 8.根据权利要求7所述的装置，其特征在于，样本数据为json格式；所述第一识别模块包括：拆解模块，用于将第i样本数据根据json结构进行拆解，得到第i样本数据的多个主键值；输入模块，用于将每个主键值输入至字段识别模型的M个接口，得到每个主键值在M个预设字段类型上的识别结果；子确定模块，用于根据每个主键值在M个预设字段类型上的识别结果确定第 i样本数据在M个预设字段类型上的识别结果。 9.根据权利要求7或8所述的装置，其特征在于，所述确定模块通过如下公式获取第i个字段判定为第j个预设字段类型的概率qij：其中： N1ij为第i个样本数据在第j个预设字段类型上的识别结果为第一识别结果的样本个数， N 为第i个样本数据的总个数， j为大于零且小于等于 M的自然数。 10.根据权利要求9所述的装置，其特征在于，所述装置还包括：配置模块，用于配置每个预设字段类型的概率阈值；判断模块，用于判断目标类型字段判定为第j个预设字段类型的概率是否大于第j个预设字段类型的概率阈值；标记模块，用于若大于，根据所述第j个预设字段类型标记目标类型字段的类型；脱敏模块，用于根据所述类型对所述目标类型字段进行脱敏处理。 11.根据权利要求7所述的装置，其特征在于，所述数据表包括：分区表和非分区表；所述抽样模块，对非分区表采用第一抽样规则从数据表n个字段中分别抽取n个样本数据；对分区表按照分区顺序依次从各个分区的n个字段分别中抽取n个样本数据。 12.根据权利要求7 所述的装置，其特征在于，所述装置还包括：提取模块，用于根据目标类型字段提取目标类型数据表，并对所述目标类型数据表配置多层级的审批机制；和/或：处理模块，用于对目标类型字段进行脱敏处理。 13.一种电子设备，包括：处理器；以及存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 2/3 页 3 CN 115310514 A 3

专利 海量数据中识别目标类型数据的方法及装置

专利海量数据中识别目标类型数据的方法及装置