(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210003449.8
(22)申请日 2022.01.04
(71)申请人 中国人民解 放军国防科技大 学
地址 210007 江苏省南京市秦淮区后标营
18号
(72)发明人 曹建军 皮德常 翁年凤 胥萌
丁鲲 袁震 江春
(74)专利代理 机构 江苏瑞途律师事务所 32346
代理人 计璐
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于文本图神经网络的社交文本情感
分类方法和系统
(57)摘要
本发明公开了一种基于文本图神经网络的
社交文本情感分类方法和系统, 属于自然语言处
理技术领域。 包括接收目标文本, 并去除所接收
的文本中的异常值; 利用BERT模型获取所述目标
文本的词嵌入; 获取所述目标文本的情感极性特
征, 利用SentiWordnet情感字典源计算目标文本
的每个单词的情感分数, 以每个单词的最终得分
作为单词的情感极性特征; 将所述目标文本的词
嵌入和情感极性特征进行拼接, 形成初始词向
量; 将所述目标文本构建为文本图结构, 将所述
初始词向量作为文本图的节点初始特征, 然后利
用文本图神经网络消息传递机制进行特征提取,
最后将提取的特征进行情感分类。 本发明既考虑
了言论中的上下文特征, 又考虑了言论之间的相
互关系, 使得情感分类更加准确。
权利要求书3页 说明书9页 附图3页
CN 114297391 A
2022.04.08
CN 114297391 A
1.一种基于文本图神经网络的社交文本情感分类方法, 其特 征在于, 包括:
接收目标文本, 并去除所接收的文本中的异常值;
利用BERT模型获取 所述目标文本的词嵌入;
获取所述目标文本的情感极性特征, 利用SentiWordnet情感字典源计算目标文本的每
个单词的情感分数, 以每 个单词的最终得分作为单词的情感极性特 征;
将所述目标文本的词嵌入和情感极性特 征进行拼接, 形成初始词向量;
将所述目标文本构建为文本 图结构, 将所述初始词向量作为文本 图的节点初始特征,
然后利用文本图神经网络消息传递机制进行 特征提取, 最后将提取的特 征进行情感分类。
2.根据权利要求1所述的方法, 其特征在于, 所述获取所述目标文本的情感极性特征,
利用Sent iWordnet情感字典源计算目标文本的每个单词的情感分数, 以每个单词的最 终得
分作为单词的情感极性特 征包括:
根据停止词对目标文本进行分词, 然后根据SentiWordnet情感词典获取每个单词的情
感分数;
根据单词的每种词性内意思的排序, 按照顺序赋予每个意思权重为1/k; 其中, k为单词
在SentiWordnet中的排序;
对每个单词在其词性内所有的分数进行加权计算, 得到该单词的情感得分, 计算公式
为:
其中, score(w+)为该单词的积极分数, score(w‑)为该单词的消极分数, n为该单词在
SentiWordnet词典中的含义总数。
3.根据权利要求2所述的方法, 其特征在于, 所述将目标文本构建为文本图结构的方法
包括:
对目标文本进行滑动窗口截取, 计算语料中单词与单词之间的词共现信息;
将目标文本 中的每个单词作为节点, 单词之间的边采用单词与 单词之间的词共现信 息
来表示, 同时单词与自身连接 。
4.根据权利要求3所述的方法, 其特征在于, 所述的利用文本图神经网络消息传递机制
进行特征提取的方法为:
首先生成节点信息, 生成信息的公式为:
其中
是节点v在t+1 时间步所接收到的信息, N(v)是节点v的所有邻接点,
是节点v
在t时间步的特 征向量, evw是节点v和w的边特 征, Mt是消息函数;
然后对节点进行 更新, 更新公式为:
其中Ut是节点更新函数, 该函数把原节点状态
和信息
作为输入, 得到新的节点状
态
最后读出 特征, 公式为:权 利 要 求 书 1/3 页
2
CN 114297391 A
2其中
是最终的输出向量, R是读取函数,G是文本图。
5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述方法还包括对图神经网络进
行训练, 采用如下损失函数:
loss=‑(y·log(y′)+(1‑y)·log(1‑y′))
其中, y′是模型预测样本为 正例的概 率, y是样本标签。
6.一种基于文本 图神经网络的社交文本情感分类系统, 所述系统根据权利要求1 ‑5任
一项所述的基于文本图神经网络的社交文本情感分类方法对社交文本进行情感分类, 包
括:
数据接收模块, 其配置成接收目标文本, 并去除所接收的文本中的异常值;
词嵌入获取模块, 其配置成利用BERT模型获取 所述目标文本的词嵌入;
情感极性特征获取模块, 其配置成获取所述目标文本的情感极性特征, 利用
SentiWordnet情感字典源计算目标文本的每个单词的情感分数, 以每个单词的最 终得分作
为单词的情感极性特 征;
向量拼接模块, 其配置成将所述目标文本的词嵌入和情感极性特征进行拼接, 形成初
始词向量;
特征提取分类模块, 其配置成将所述目标文本构建为文本 图结构, 将所述初始词向量
作为文本图的节点初始特征, 然后利用文本图神经网络消息传递机制进行特征提取, 最后
将提取的特 征进行情感分类。
7.根据权利要求6所述的系统, 其特 征在于, 所述特 征提取分类模块包括:
文本图构建模块, 其配置成将所述目标文本构建为文本图结构;
特征提取模块, 其配置成将所述初始词向量作为文本 图的节点初始特征, 然后利用文
本图神经网络消息传递机制进行 特征提取;
特征分类模块, 其配置成将提取的特 征进行情感分类。
8.根据权利要求7 所述的系统, 其特 征在于, 所述特 征提取模块包括:
生成信息模块, 其配置成根据如下公式生成信息,
其中
是节点v在t+1时间步所接收到的信息, N(v)是节 点v的所有邻接点,
是节点v
在t时间步的特 征向量, evw是节点v和w的边特 征, Mt是消息函数;
节点更新模块, 其配置成根据如下公式进行对节点进行 更新:
其中Ut是节点更新函数, 该函数把原节点状态
和信息
作为输入, 得到新的节点状
态
特征读取模块, 其配置成根据如下公式读出 特征:
权 利 要 求 书 2/3 页
3
CN 114297391 A
3
专利 一种基于文本图神经网络的社交文本情感分类方法和系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:02上传分享