(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211260276.4
(22)申请日 2022.10.14
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 王进 陈怡雯 朴昌浩 刘彬
杜雨露 邓欣 孙开伟
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
专利代理师 王海军
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于大数据的细粒度商品命名实体识
别方法
(57)摘要
本发明属于自然语 言处理技术领域, 具体涉
及一种基于大数据的细粒度商品命名实体识别
方法, 包括: 采用无标注的商品数据S对预训练
NEZHA模型进行增量训练, 得到继续预训练模型
M; 构建GPNER模型包 括文本处理层、 编码层、 特征
融合层、 卷积层、 实体边界层、 实体分类层; GPNER
模型使用特征融合层融入词组信息, 增强实体识
别的准确率; 采用实体边界层和实体 分类层多任
务的方式对模 型参数进行调优。 本发 明不仅使用
了无标注数据对预训练模型NEZHA模型进行了继
续预训练, 能模型更加适应垂直领域, 同时GPNER
模型利用了文本长度、 词汇信息等知识融入到数
据, 使模型更加精准的识别到实体边界和辨别实
体的种类 。
权利要求书3页 说明书7页 附图1页
CN 115422939 A
2022.12.02
CN 115422939 A
1.一种基于大 数据的细粒度商品命名实体识别方法, 其特 征在于, 包括以下步骤:
s1: 获取有标注的商品信息数据和无标注 的商品信息数据, 根据商品数据的标注信息
将获取的商品数据划分为无 标注商品数据集和已标注商品数据集;
S2: 将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练, 得到预训练模型
M;
S3: 建立GPNER模型, 所述GPNER模型包括: 文本处理层、 编码层、 特征融合层、 卷积层、 实
体边界层、 实体分类层;
S4: 将待进行实体命名识别的商品文本数据输入文本处理层, 融合文本长度和文本中
的实体个数信息;
S5: 编码层对文本中的实体个数采用[Mask]进行掩盖, 并通过预训练模型M进行编码,
得到文本的隐藏层状态向量, 并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别
向量信息, 得到词语向量表征hlast;
S6: 特征融合层将已标注商品数据集中的商品数据文本的词组信 息融入词语向量表征
hlast, 得到特征融合向量hmerge;
S7: 将特征融合向量hmerge输入卷积层的三层卷积网络, 根据感受野rn*rn学习不同rn级
别的片段信息来 获取商品标题实体内部的关联特征, 并将每一层的关联特征与特征融合向
量hmerge进行拼接, 得到商品的词语向量hcnn;
S8: 实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序
列向量qα、 kα, 根据序列向量qα、 kα利用实体分数计算函数计算文本中每一个字符的实体分
数sα(i, j), 当 sα(i, j)>0时, 句子文本[i, j]为实体片段, 得到商品实体边界i和j;
S9: 实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行
m类分类, 得到商品实体的种类。
2.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 进行增量训练, 得到预训练模型M, 具体包括:
对无标注数据集使用动态遮蔽策略, 将数据集复制 五份, 将复制出的数据集中的文本
数据输入NEZHA模型进行数据迭代, 字词有50%的概率会被选中, 当一个字被选中的同时,
策略选取与这个字左右相关 的n个词进行遮蔽, 选中的字词中有80%会使用[MASK]进行遮
蔽, 10%是随机挑选一个词来代替[MASK], 10%的概率会保持不变, 得到新的遮蔽文本, 重
复上述过程, 直到NEZHA模型不再生成新的遮蔽文本, 得到当前 预训练模型M 。
3.根据权利要求2所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 当一个字被选中的同时, 策略选取与这个字左右相关的n个词进行遮蔽, 表示 为:
其中, ni表示遮蔽文本的长度, p(ni)为ni遮蔽长度被选中的概率, e表示自然底数, λ表
示遮蔽长度均值,
4.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 融合文本 长度和文本中的实体 个数信息, 具体包括:权 利 要 求 书 1/3 页
2
CN 115422939 A
2统计一条文本的长度, 在模版 “文本中有x个字 ”中填入统计的文本长度信息, 拼接到文
本后面, 统计一条文本中拥有的实体个数, 在 模版“x种实体在文本中 ”中填入统计的实体个
数信息, 拼接在 文本的最后面, 得到输入编码层的文本为[文本中有x个字 ][具体文本 ][x个
实体在文本中]。
5.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 在隐藏层状态向量的每个词位置上分别加上[ CLS]的类别向量信息, 得到词语向量表征
hlast, 表示为:
hlast=Sum(hbert, Expand(hcls))
其中, hbert表示隐藏层状态向量, hcls表示[CLS]的类别向量信息, Expand()表示扩展向
量第一维度的函数, Sum()表示 根据向量的第一维度进行按位相加操作的求和函数。
6.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 所述S6具体包括:
特征融合层根据已标注商 品数据集的标注信 息的词组构建字典, 按照词组的字典大小
初始化一个200维的词向量, 对于每一个输入字 符, 使用字典匹配该字符作为B开始、 I中间、
E结束三种位置类型对应的词, 根据匹配到的词语, 在初始化的200维词向量中查找得到对
应的匹配词语向量hgaz, 针对BIE三个位置, 构建三个不同的图神经网络GAT1、 GAT2、 GAT3, B开
始位置的词向量进入GAT1网络, 提取当前开始位置的词组与它前后开始位置词组之间的关
系, 得到GAT1的邻接矩阵, I中间位置的词向量进入GAT2网络, 捕捉当前词 组字符之间的关
系, 得到GA T2的邻接矩阵, E结束位置的词向量进入GAT3网络, 捕捉 结束词组之间以及当前结
束词组与开头结尾字符之间的关系, 得到GAT3的邻接矩阵, 将匹配的词语向量hgaz与词语向
量表征hlast进行拼接得到拼接向量
通过拼接
与三个网络的邻接矩阵计
算邻接矩阵中节点与节点之间的重要性系 数得到重要性系 数矩阵α, 再将重要性系 数矩阵
中的重要性系数与
相乘得到三个神经网络的输出, 将三个图神经网络GAT1、 GAT2、
GAT3的输出与词语向量表征hlast进行加权融合, 得到特 征融合向量hmerge。
7.根据权利要求6所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 重要性系数矩阵α, 表示 为:
α =Softmax(MASK(Adj, e) )
其中, Soffmax()表示soft max函数, MASK()表示根据邻接矩阵Adj改变N ×N的矩阵e的
位置值,
LeakyRelu()表示
leakyrelu激活函数, W1表示第一可学习的权重矩阵, W2表示第二可学习的权重矩阵,
表示拼接向量, | |表示对向量进行 竖向拼接, T表示 转置操作。
8.根据权利要求6所述的一种基于大数据的细粒度商品命名实体识别方法, 其特征在
于, 将三个图神经 网络GAT1、 GAT2、 GAT3的输出与词语向量表征hlast进行加权融合, 得到特征
融合向量hmerge, 表示为:
hmerge=W1hgat1[0: seqlen ‑m]+W2hgat[0: seqlen ‑m]+W3hgat[0: seqlen ‑m]+W4hlast[0:
seqlen‑m]
其中, hgat1、 hgat、 hgat3分别表示神经网络GAT1、 GAT2、 GAT3的输出, W1表示第一可学习的权
重矩阵, W2表示第二可学习的权重矩阵, W3表示第三可学习的权重矩阵, W4表示第四可学习权 利 要 求 书 2/3 页
3
CN 115422939 A
3
专利 一种基于大数据的细粒度商品命名实体识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:36上传分享