(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211248926.3
(22)申请日 2022.10.12
(71)申请人 北京金堤科技有限公司
地址 100086 北京市海淀区知春路6 5号院1
号楼B座20层20 01号
(72)发明人 李凯
(74)专利代理 机构 北京市浩天知识产权代理事
务所(普通 合伙) 11276
专利代理师 宋菲
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/338(2019.01)
G06F 16/35(2019.01)
G06F 40/258(2020.01)
G06F 40/295(2020.01)
(54)发明名称
企业名单信息获取方法、 装置、 存储介质和
电子设备
(57)摘要
本发明提供了一种企业名单信息获取方法、
装置、 存储介质和电子设备, 其中, 该方法包括:
获取舆情数据的标题, 判断所述标题中是否存在
预设关键词信息, 若是, 则对所述舆情数据的舆
情正文进行预处理; 根据标题和预处理后的舆情
正文获取目标数据, 所述目标数据包括: 列入负
面企业名单的企业、 名单发布机构、 列入名单时
间和惩戒类型中的一项或多项; 将获取的所述目
标数据作为企业名单信息。 通过使用上述步骤对
舆情数据中的企业名单信息进行抽取, 可以有效
地过滤掉无效信息, 并获得 企业名单关键的四个
维度信息: 时间、 机构、 公司和类型, 直接提供给
用户结构化的信息, 降低了用户对于繁杂的舆情
数据的阅读成本 。
权利要求书2页 说明书12页 附图2页
CN 115357688 A
2022.11.18
CN 115357688 A
1.一种企业名单信息获取 方法, 其特 征在于, 所述方法包括:
获取舆情数据的标题, 判断所述标题中是否存在预设关键词信 息, 若是, 则对所述舆情
数据的舆情正文 进行预处理;
根据标题和预处理后的舆情正文获取目标数据, 所述目标数据包括: 列入负面企业名
单的企业、 名单发布机构、 列入名单时间和惩戒类型中的一项或多 项;
将获取的所述目标 数据作为企业名单信息 。
2.根据权利要求1所述的企业名单信 息获取方法, 其特征在于, 所述预设关键词信 息包
括预设的对应于负面企业名单的负面关键词信息和预设的对应于正面企业名单的正面关
键词信息,
所述根据标题和预处 理后的舆情正文获取目标 数据, 包括:
遍历预处理后的舆情正文中的各个语句, 并在其中提取出包含负面关键词信 息且不包
含正面关键词信息的第一类目标语句;
从第一类目标语句中提取企业实体信 息, 基于提取到的企业实体信 息确定列入负面企
业名单的企业。
3.根据权利要求2所述的企业名单信 息获取方法, 其特征在于, 若未能提取出第 一类目
标语句, 或第一类目标语句中未能提取 出企业实体信息, 则执 行以下步骤:
在预处理后的舆情正文中, 分别确定正面关键词信息、 负面关键词信息和企业实体的
定位信息;
将所述正面关键词信 息、 所述负面关键词信 息和所述企业实体各自的定位信 息从前向
后进行排序, 得到目标 数组;
根据所述目标数组中的负面关键词信息的定位信息与所述企业实体的定位信息的相
对位置, 确定列入负面企业名单的企业。
4.根据权利要求3所述的企业名单信 息获取方法, 其特征在于, 所述在预处理后的舆情
正文中, 分别确定正面关键词信息、 负面关键词信息和企业 实体的定位信息, 将所述正面关
键词信息、 所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序, 得到
目标数组, 包括:
分别确定正面关键词的首字符和负面关键词的首字符在预处理后的舆情正文中的第
一类定位信息, 将各个所述第一类定位信息从前到后进行排序, 得到初始数组;
对所述预处 理后的舆情正文 进行实体识别, 得到其中包 含的企业实体;
分别确定各个所述企业实体的首字符在预处 理后的舆情正文中的第二类定位信息;
将所述第二类定位信 息插入所述初始数组中, 使所述初始数组中的各个定位信 息从前
到后排序, 得到目标 数组。
5.根据权利要求1所述的企业名单信 息获取方法, 其特征在于, 所述根据标题和预处理
后的舆情正文获取目标 数据, 包括:
在所述舆情正文的开头的第 一预设数量个字符和末尾的第 二预设数量个字符中, 使用
命名实体识别的方式提取其中的日期实体和机构实体, 分别作为所述列入名单时间和所述
名单发布机构。
6.根据权利要求1所述的企业名单信 息获取方法, 其特征在于, 所述根据标题和预处理
后的舆情正文获取目标 数据, 包括:权 利 要 求 书 1/2 页
2
CN 115357688 A
2将所述标题和所述舆情正文的开头的第三预设数量个字符输入预先训练的分类模型
中, 基于所述分类模型的输出 结果确定所述目标 数据中的惩戒类型。
7.根据权利要求5所述的企业名单信 息获取方法, 其特征在于, 若使用命名实体识别的
方式未能提取到其中的日期实体和机构实体, 则执 行以下步骤:
从所述舆情数据中提取 出所述舆情数据的来源数据地址;
从所述来源数据地址采集原始正文, 从所述原始正文中提取日期实体和机构实体, 分
别作为所述列入名单时间和所述名单发布机构。
8.根据权利要求7所述的企业名单信 息获取方法, 其特征在于, 所述从所述舆情数据中
提取出所述舆情数据的来源数据地址, 包括:
根据第一预设匹配规则, 提取 所述舆情数据中的所有链接;
遍历所提取 出的链接, 解析 出每个链接对应的链接数据的链接数据标题;
筛选出大于或者 等于预设标题字符数量的链接数据标题作为第一相似标题;
获取所述舆情数据的标题, 并根据所述舆情数据的标题和第一相似标题, 从第一相似
标题中筛 选出第二相似标题, 并将其对应的链接数据作为相似数据;
获取所述舆情数据的文本 内容以及相似数据的文本内容, 计算所述舆情数据的文本 内
容与相似数据的文本内容的文本相似度, 并将文本相似度最高的相似数据的地址作为所述
舆情数据的来源数据地址 。
9.根据权利要求8所述的方法, 其特征在于, 若所述舆情数据中不存在所述链接, 或者
所述链接数据中不存在所述相似数据, 所述方法还 包括:
若不存在, 确定所述舆情数据不存在所述 来源数据地址;
或者, 若不存在, 将所述舆情数据的标题转发至目标搜索引擎进行搜索操作, 得到至少
一个搜索结果链接;
获取所述搜索结果链接对应的链接数据的文本 内容, 计算所述舆情数据的文本内容与
所述链接数据的文本内容的文本相似度, 并将文本相似度最高的链接数据的地址作为所述
舆情数据的来源数据地址 。
10.一种企业名单信息获取装置, 其特 征在于, 所述装置包括:
预处理模块, 用于获取舆情数据的标题, 判断所述标题中是否存在预设关键词信 息, 若
是, 则对所述舆情数据的舆情正文 进行预处理;
目标数据获取模块, 用于根据标题和预处理后的舆情正文获取目标数据, 所述目标数
据包括: 列入负面 企业名单的企业、 名单发布机构、 列入名单时间和惩戒类型中的一项或多
项;
企业名单信息获取模块, 用于将获取的所述目标 数据作为企业名单信息 。
11.一种电子设备, 其特 征在于, 所述电子设备包括:
处理器;
用于存储所述处 理器可执行指令的存 储器;
所述处理器, 用于从所述存储器中读取所述可执行指令, 并执行所述可执行指令以实
现上述权利要求1 ‑9中任一项所述的方法。
12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程
序, 所述计算机程序用于执 行上述权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115357688 A
3
专利 企业名单信息获取方法、装置、存储介质和电子设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:45:06上传分享