(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211533258.9
(22)申请日 2022.12.02
(71)申请人 北京德风 新征程科技有限公司
地址 101499 北京市怀柔区府前街3号楼1
层3-8号-132
(72)发明人 秦志宾 闫松伟 王瑞 饶新宏
(74)专利代理 机构 北京唯智勤实知识产权代理
事务所(普通 合伙) 11557
专利代理师 姜悦
(51)Int.Cl.
G06F 16/13(2019.01)
G06F 16/31(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
(54)发明名称
文件处理方法、 装置、 电子设备和计算机可
读介质
(57)摘要
本公开的实施例公开了文件处理方法、 装
置、 电子设备和计算机可读介质。 该方法的一具
体实施方式包括: 响应于检测到在文件处理界面
所输入的文件处理信息, 对文件处理信息进行语
义提取, 得到语义信息; 从语义信息提取多个关
键词; 确定多个 关键词中的每个关键词对应的关
键词性类型; 获取文件处理所需关键词性类型,
得到所需关键词性类型集; 响应于确定多个关键
词对应的关键词性类型集包括所需关键词性类
型集, 确定与所需关键词性类型集中的每个所需
关键词性类型对应的关键词, 得到关键词集; 确
定关键词集对应的第一关键词编码集; 在目标数
据库中对待处理文件进行文件处理。 该实施方式
可以快捷、 高效地对 待处理文件进行文件处理。
权利要求书3页 说明书13页 附图3页
CN 115543925 A
2022.12.30
CN 115543925 A
1.一种文件处 理方法, 包括:
响应于检测到目标用户在文件处理界面所输入的文件处理信 息, 对所述文件处理信 息
进行语义 提取, 得到语义信息;
从所述语义信息提取多个关键词;
确定所述多个关键词中的每 个关键词对应的关键词性类型;
获取文件处 理所需关键词性类型, 得到所需关键词性类型集;
响应于确定所述多个关键词对应的关键词性类型集包括所述所需关键词性类型集, 确
定与所述所需关键词性类型集中的每 个所需关键词性类型对应的关键词, 得到关键词集;
确定所述关键词集对应的第一关键词编码集;
根据所述第一关键词编码集, 利用文件层次树模型, 在目标数据库中对待处理文件进
行文件处理, 其中, 所述文件层次树模 型是基于目标数据库中的文件目录所建立的, 文件层
次树模型的树节点包括: 文件信息和文件信息对应的至少一个第二关键词编 码, 其中, 第二
关键词编码与关键词存在一 一对应关系。
2.根据权利要求1所述的方法, 其中, 所述方法还 包括:
响应于确定所述待处理文件处理结束, 确定所述待处理文件对应的文件信 息和对应至
少一个关键词;
根据所述待处理文件对应的文件信 息和对应至少一个关键词, 对所述文件层次树模型
进行模型 更新。
3.根据权利要求1所述的方法, 其中, 在所述响应于确定所述多个关键词对应的关键词
性类型集包括所述所需关键词性类型集, 确定与所述所需关键词性类型集中的每个所需关
键词性类型对应的关键词, 得到关键词集之后, 所述方法还 包括:
响应于确定所述多个关键词对应的关键词性类型集不包括所述所需关键词性类型集,
确定差别关键词性类型集, 其中, 所述差别 关键词性类型集为所需关键词性类型集中的子
集, 所述差别关键词性类型集与所述关键词性类型集 不存在相同的关键词性类型;
生成针对所述差别关键词性类型集中的各个差别关键词性类型对应的信息询问文本;
在所述文件处理界面弹出信 息填写弹窗, 以供所述目标用户针对所述信 息询问文本填
写对应关键词集;
根据所填写的关键词集和所述多个关键词, 确定针对所述所需关键词性类型集对应的
关键词集。
4.根据权利要求1所述的方法, 其中, 文件信 息对应的至少一个第 二关键词编码通过以
下步骤生成:
响应于确定文件信息对应文件不 为空文件, 确定所述文件 对应的子文件集;
确定所述子文件集中每 个子文件的文件格式类型;
响应于确定所述子文件集中的各个子文件的文件格式类型为第 一文件格式类型, 将各
个子文件的文件名称确定为初始文本, 得到初始文本集;
对所述初始文本集中的各个初始文本进行文本分词, 以生成至少一个第一词;
将所述至少一个第一词确定为至少一个第一关键词;
对所述至少一个第一关键词进行编码, 得到 至少一个第二关键词编码。
5.根据权利要求4所述的方法, 其中, 在所述对所述至少一个第一关键词进行编码, 得权 利 要 求 书 1/3 页
2
CN 115543925 A
2到至少一个第二关键词编码之后, 所述方法还 包括:
响应于确定所述子文件集中的各个子文件的文件格式类型为第一文件格式类型和第
二文件格式类型, 将所述第二文件格式类型 的至少一个子文件的文件名称进行分词, 得到
词集;
对于所述至少一个子文件中的每 个子文件, 执 行文本关键词提取步骤:
获取所述子文件 对应的文件内容;
将文件内容输入至文本思想信息提取模型, 以输出文本思想信息;
提取所述文件内容中词频满足预设条件的词, 作为关键词, 得到内容关键词集;
对所述文本思想信息进行文本分词, 以生成思想关键词, 得到思想关键词集;
将所述内容关键词集和所述思想关键词集进行词融合, 得到融合词集;
从所述子文件集中去除所述至少一个子文件, 得到去除后子文件集;
对所述去除后子文件集中的去除后子文件进行文本分词, 以生成至少一个第二词;
将所述至少一个第二词确定为至少一个第二关键词;
将所述至少一个第二关键词和所述融合词集进行汇总, 得到汇总词集;
对所述汇总词集中的词进行编码, 得到 至少一个第二关键词编码。
6.根据权利要求1所述的方法, 其中, 所述根据所述第一关键词编码集, 利用文件层次
树模型, 在目标 数据库中对待处 理文件进行文件处 理, 包括:
将所述第一关键词编码集中的每个第一关键词编码输入至编码与解码网络模型中的
解码模型, 以生成第一解码词, 得到第一解码词集, 其中, 所述编码与解码网络模 型包括: 第
一编码模型、 第二编码模型和解码模型;
将所述第一解码词集中的每个第 一解码词输入至所述第 二编码模型, 以生成第 二关键
词编码, 得到第二关键词编码集;
根据所述第二关键词编码集, 利用所述文件层次树模型, 在所述目标数据库中对待处
理文件进行文件处 理。
7.根据权利要求6所述的方法, 其中, 所述根据所述第二关键词编码集, 利用所述文件
层次树模型, 在所述目标 数据库中对待处 理文件进行文件处 理, 包括:
获取针对目标关键词性类型的多个第二关键词编码;
确定所述第 二关键词编码集与所述多个第 二关键词编码之间重复的关键词编码, 得到
重复关键词编码集;
对所述重复关键词编码集进行去重, 得到去重关键词编码集;
从所述第二关键词编码集中去除所述重复关键词编码集, 得到去除关键词编码集;
将所述去重关键词编码集中的每个去重关键词输入至所述编码与解码网络模型中的
解码模型, 以生成第二 解码词, 得到第二 解码词集;
利用所述文件层次树模型, 确定与所述去 除关键词编码集相对应的文件集, 作为待处
理文件;
根据所述第二 解码词集, 在所述目标 数据库中对待处 理文件进行文件处 理。
8.一种文件处 理装置, 包括:
语义提取单元, 被配置成响应于检测到目标用户在文件处理界面所输入的文件处理信
息, 对所述文件处 理信息进行语义 提取, 得到语义信息;权 利 要 求 书 2/3 页
3
CN 115543925 A
3
专利 文件处理方法、装置、电子设备和计算机可读介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:45:04上传分享