专利 文件处理方法、装置、电子设备和计算机可读介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211533258.9 (22)申请日 2022.12.02 (71)申请人北京德风新征程科技有限公司地址 101499 北京市怀柔区府前街3号楼1 层3-8号-132 (72)发明人秦志宾　闫松伟　王瑞　饶新宏　 (74)专利代理机构北京唯智勤实知识产权代理事务所(普通合伙) 11557 专利代理师姜悦 (51)Int.Cl. G06F 16/13(2019.01) G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) (54)发明名称文件处理方法、装置、电子设备和计算机可读介质 (57)摘要本公开的实施例公开了文件处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：响应于检测到在文件处理界面所输入的文件处理信息，对文件处理信息进行语义提取，得到语义信息；从语义信息提取多个关键词；确定多个关键词中的每个关键词对应的关键词性类型；获取文件处理所需关键词性类型，得到所需关键词性类型集；响应于确定多个关键词对应的关键词性类型集包括所需关键词性类型集，确定与所需关键词性类型集中的每个所需关键词性类型对应的关键词，得到关键词集；确定关键词集对应的第一关键词编码集；在目标数据库中对待处理文件进行文件处理。该实施方式可以快捷、高效地对待处理文件进行文件处理。权利要求书3页说明书13页附图3页 CN 115543925 A 2022.12.30 CN 115543925 A 1.一种文件处理方法，包括：响应于检测到目标用户在文件处理界面所输入的文件处理信息，对所述文件处理信息进行语义提取，得到语义信息；从所述语义信息提取多个关键词；确定所述多个关键词中的每个关键词对应的关键词性类型；获取文件处理所需关键词性类型，得到所需关键词性类型集；响应于确定所述多个关键词对应的关键词性类型集包括所述所需关键词性类型集，确定与所述所需关键词性类型集中的每个所需关键词性类型对应的关键词，得到关键词集；确定所述关键词集对应的第一关键词编码集；根据所述第一关键词编码集，利用文件层次树模型，在目标数据库中对待处理文件进行文件处理，其中，所述文件层次树模型是基于目标数据库中的文件目录所建立的，文件层次树模型的树节点包括：文件信息和文件信息对应的至少一个第二关键词编码，其中，第二关键词编码与关键词存在一一对应关系。 2.根据权利要求1所述的方法，其中，所述方法还包括：响应于确定所述待处理文件处理结束，确定所述待处理文件对应的文件信息和对应至少一个关键词；根据所述待处理文件对应的文件信息和对应至少一个关键词，对所述文件层次树模型进行模型更新。 3.根据权利要求1所述的方法，其中，在所述响应于确定所述多个关键词对应的关键词性类型集包括所述所需关键词性类型集，确定与所述所需关键词性类型集中的每个所需关键词性类型对应的关键词，得到关键词集之后，所述方法还包括：响应于确定所述多个关键词对应的关键词性类型集不包括所述所需关键词性类型集，确定差别关键词性类型集，其中，所述差别关键词性类型集为所需关键词性类型集中的子集，所述差别关键词性类型集与所述关键词性类型集不存在相同的关键词性类型；生成针对所述差别关键词性类型集中的各个差别关键词性类型对应的信息询问文本；在所述文件处理界面弹出信息填写弹窗，以供所述目标用户针对所述信息询问文本填写对应关键词集；根据所填写的关键词集和所述多个关键词，确定针对所述所需关键词性类型集对应的关键词集。 4.根据权利要求1所述的方法，其中，文件信息对应的至少一个第二关键词编码通过以下步骤生成：响应于确定文件信息对应文件不为空文件，确定所述文件对应的子文件集；确定所述子文件集中每个子文件的文件格式类型；响应于确定所述子文件集中的各个子文件的文件格式类型为第一文件格式类型，将各个子文件的文件名称确定为初始文本，得到初始文本集；对所述初始文本集中的各个初始文本进行文本分词，以生成至少一个第一词；将所述至少一个第一词确定为至少一个第一关键词；对所述至少一个第一关键词进行编码，得到至少一个第二关键词编码。 5.根据权利要求4所述的方法，其中，在所述对所述至少一个第一关键词进行编码，得权　利　要　求　书 1/3 页 2 CN 115543925 A 2到至少一个第二关键词编码之后，所述方法还包括：响应于确定所述子文件集中的各个子文件的文件格式类型为第一文件格式类型和第二文件格式类型，将所述第二文件格式类型的至少一个子文件的文件名称进行分词，得到词集；对于所述至少一个子文件中的每个子文件，执行文本关键词提取步骤：获取所述子文件对应的文件内容；将文件内容输入至文本思想信息提取模型，以输出文本思想信息；提取所述文件内容中词频满足预设条件的词，作为关键词，得到内容关键词集；对所述文本思想信息进行文本分词，以生成思想关键词，得到思想关键词集；将所述内容关键词集和所述思想关键词集进行词融合，得到融合词集；从所述子文件集中去除所述至少一个子文件，得到去除后子文件集；对所述去除后子文件集中的去除后子文件进行文本分词，以生成至少一个第二词；将所述至少一个第二词确定为至少一个第二关键词；将所述至少一个第二关键词和所述融合词集进行汇总，得到汇总词集；对所述汇总词集中的词进行编码，得到至少一个第二关键词编码。 6.根据权利要求1所述的方法，其中，所述根据所述第一关键词编码集，利用文件层次树模型，在目标数据库中对待处理文件进行文件处理，包括：将所述第一关键词编码集中的每个第一关键词编码输入至编码与解码网络模型中的解码模型，以生成第一解码词，得到第一解码词集，其中，所述编码与解码网络模型包括：第一编码模型、第二编码模型和解码模型；将所述第一解码词集中的每个第一解码词输入至所述第二编码模型，以生成第二关键词编码，得到第二关键词编码集；根据所述第二关键词编码集，利用所述文件层次树模型，在所述目标数据库中对待处理文件进行文件处理。 7.根据权利要求6所述的方法，其中，所述根据所述第二关键词编码集，利用所述文件层次树模型，在所述目标数据库中对待处理文件进行文件处理，包括：获取针对目标关键词性类型的多个第二关键词编码；确定所述第二关键词编码集与所述多个第二关键词编码之间重复的关键词编码，得到重复关键词编码集；对所述重复关键词编码集进行去重，得到去重关键词编码集；从所述第二关键词编码集中去除所述重复关键词编码集，得到去除关键词编码集；将所述去重关键词编码集中的每个去重关键词输入至所述编码与解码网络模型中的解码模型，以生成第二解码词，得到第二解码词集；利用所述文件层次树模型，确定与所述去除关键词编码集相对应的文件集，作为待处理文件；根据所述第二解码词集，在所述目标数据库中对待处理文件进行文件处理。 8.一种文件处理装置，包括：语义提取单元，被配置成响应于检测到目标用户在文件处理界面所输入的文件处理信息，对所述文件处理信息进行语义提取，得到语义信息；权　利　要　求　书 2/3 页 3 CN 115543925 A 3

专利 文件处理方法、装置、电子设备和计算机可读介质

专利文件处理方法、装置、电子设备和计算机可读介质