standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210025558.X (22)申请日 2022.01.11 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 林佳 刘慧 韦苏美 王玉峰 (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 代理人 董建林 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种基于多层编码网络的谣言检测方法及 系统 (57)摘要 本发明公开了一种基于多层编码网络的谣 言检测方法及系统, 属于自然语言处理领域, 包 括: 获取所有待检测的文本, 对文本进行预处理; 将带有标记词汇表的词片嵌入预处理后的文本, 将文本中单词转换为token标记词, 然后进行向 量编码得到各文本对应的词向量; 对 所有词向量 进行处理得到输入向量; 将输入向量输入预训练 好的多层编码网络中, 生成输出向量; 将输出向 量进行处理得到隐藏状态向量; 将隐藏状态向量 送入隐藏层和分类器, 得到待检测文本被检测为 各谣言类别的概率, 概率最大的类别为该文本的 检测结果; 有效缓解了训练速度慢、 效果差等问 题, 实现对词语和句子级别信息的学习, 有利于 提取不同文本之间的关系表示, 提高了谣言检测 的准确性。 权利要求书2页 说明书7页 附图2页 CN 114328843 A 2022.04.12 CN 114328843 A 1.一种基于多层编码网络的谣言检测方法, 其特 征在于, 包括: 获取所有待检测的文本, 对文本进行 预处理; 将带有标记词 汇表的词片嵌入预处理后的文本, 将文本中单词转换为token标记词, 然 后进行向量编码得到各文本对应的词向量; 对所有词向量进行处 理得到输入向量; 将输入向量输入预训练好的多层编码网络中, 生成输出向量; 将输出向量进行处 理得到隐藏状态向量; 将隐藏状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣言类别的概率, 概率最大的类别为该文本的检测结果。 2.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述待 检测的文本数量 为两条。 3.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 对文本 进行预处理的方法包括: 将待检测的文本去 除标点符号和特殊字符, 并将所有字符转换为小写, 得到预处理后 的文本。 4.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 对所有 词向量进行处 理得到输入向量的方法包括: 在第一条词向量的首部和两条词向量之间添加标志位, 将多条词向量进行分隔后合并 多条词向量, 再将其与位置向量、 各词向量对应的分段向量逐位纵向拼接, 得到 输入向量。 5.根据权利要求4所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将输入 向量输入预训练好的多层编码网络中, 生成输出向量, 包括如下步骤: 将输入向量送入编码网络, 每一层编码网络都包含注意力机制与层归一化网络, 得到 多个自注意力网络输出并将其拼接为一条向量并降维输出, 然后 将该向量与输入向量进 行 残差连接, 并经 过层归一 化和两次线性 转换, 得到与输入向量长度相同的第一输出向量; 将第一输出向量送入相同结构的下一层编码网络重复上述步骤, 直至最后 一层编码网 络, 得到最 终的输出向量, 该输出向量由表示标志 位对应位置输出的标志位表征向量、 表 示 各文本对应位置 输出的各文本表征向量组成。 6.根据权利要求5所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将输出 向量进行处 理得到隐藏状态向量的方法包括: 将标志位表征向量激活并送入全连接层, 将各文本表征向量分别加和平均 再激活后各 自送入对应的全连接层, 得到多个初级隐藏状态向量, 将初级隐藏状态向量进行拼接得到 隐藏状态向量。 7.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 将隐藏 状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣言类别的概率, 包括如下步 骤: 将隐藏状态向量送入隐藏层, 经 过隐藏层的非线性激活函数处 理, 输出隐藏输出向量; 将隐藏输出向量送入softmax回归分类器, 得到待检测文本被检测为各谣言类别的概 率: O=softmax(ZWo+bo)权 利 要 求 书 1/2 页 2 CN 114328843 A 2其中, Z是隐藏输出向量, Wo是隐藏层和分类 器质检的连接 权重, bo是c维向量偏置 。 8.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述谣 言类别包括真实谣言、 虚假谣言和真实性未 经验证谣言。 9.根据权利要求1所述的一种基于多层编码网络的谣言检测方法, 其特征在于, 所述标 记词汇表通过Subw ord算法建立。 10.一种基于多层编码网络的谣言检测系统, 其特 征在于, 包括: 文本预处 理模块: 用于获取 所有待检测的文本, 对文本进行 预处理; 向量编码模块: 用于将带有标记词汇表的词片嵌入预处理后的文本, 将文本中单词转 换为token标记词, 然后进行向量编码得到各文本对应的词向量; 输入向量获取模块: 用于对所有词向量进行处 理得到输入向量; 语义学习模块: 用于将输入向量输入预训练好的多层编码网络中, 生成输出向量; 隐藏状态向量获取模块: 用于将输出向量进行处 理得到隐藏状态向量; 检测模块: 用于将隐藏状态向量送入隐藏层和分类器, 得到待检测文本被检测为各谣 言类别的概 率, 概率最大的类别为该文本的检测结果。权 利 要 求 书 2/2 页 3 CN 114328843 A 3
专利 一种基于多层编码网络的谣言检测方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:58
上传分享
举报
下载
原文档
(599.6 KB)
分享
友情链接
T-BSRS 052—2021 核技术利用单位辐射事故应急预案的格式和内容.pdf
ISO IEC 27005-2022 信息安全、 网络安全和隐私保护-信息安全风险管理指南.pdf
奇安信 2021年中国企业邮箱安全性研究报告.pdf
T-CERDS 3—2022 企业ESG评价体系.pdf
T-SZFAA 03—2019 人工光型植物工厂建设规范.pdf
GB-T 16433-2009 残疾人田径运动员医学和功能分级.pdf
GB-T 26333-2010 工业控制网络安全风险评估规范.pdf
YD-T 4194-2023 5G终端基于NR的语音解决方案(VoNR)技术要求.pdf
GB-T 39334.4-2020 机械产品制造过程数字化仿真 第4部分:数控加工过程仿真要求.pdf
GB-T 29072-2012 航天器研制技术流程编写规则.pdf
GB-T 24804-2023 提高在用电梯安全性的规范.pdf
GB-T 5541-2017 分散染料 高温分散稳定性的测定 双层滤纸过滤法.pdf
NY-T 2284-2012 玉米灾害田间调查及分级技术规范.pdf
湖南金盾安全 渗透测试与等级保护测评指标体系对应关系研究.pdf
上海市公共数据共享实施办法(试行)3.2发布.pdf
GB-Z 20986-2007 信息安全技术 信息安全事件分类分级指南.pdf
GB-T 25055-2010 信息安全技术 公钥基础设施安全支撑平台技术框架.pdf
GB-T 13606-2007 土工试验仪器 岩土工程仪器 振弦式传感器通用技术条件.pdf
T-SHSPTA 004—2023 药品DTP 模式服务质量体系建设导则.pdf
GB-T 24265-2014 工业用硅藻土助滤剂.pdf
1
/
12
评价文档
赞助2.5元 点击下载(599.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。