专利 一种基于时空交叉注意力的实时动作定位方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210787330.4 (22)申请日 2022.07.04 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人柯逍　缪欣　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师陈明鑫　蔡学俊 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/766(2022.01) G06V 10/764(2022.01)G06V 40/20(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称一种基于时空交叉注意力的实时动作定位方法 (57)摘要本发明涉及一种基于时空交叉注意力的实时动作定位方法。首先对视频片段进行采样得到输入视频，并通过帧集划分进行关键帧的提取，将获取到视频片段输入R(2+1)D网络提取时序特征，将关键帧输入CSPNet网络提取空间特征。其次，对时序特征进行压缩，并将其与空间特征进行编码转换。计算时序特征与空间特征相互之间的潜在自适应，将其嵌入transformer 自注意力进行特征的交叉表示，拼接特征并利用上下文注意力模块对特征进行融合。最后，通过回归、分类网络预测边界框位置以及运动类别，根据预测结果计算相邻帧各个类别的链接分数，采用维特比算法寻找生成动作管的最佳路径。权利要求书4页说明书5页附图1页 CN 115019239 A 2022.09.06 CN 115019239 A 1.一种基于时空交叉注意力的实时动作定位方法，其特征在于，包括如下步骤：步骤S1、对视频片段进行采样得到输入视频，并通过帧集划分进行关键帧的提取；步骤S2、将获取到视频片段输入R(2+1)D网络提取时序特征，将关键帧输入CSPNet网络提取空间特征；步骤S3、压缩时序特征，空间特征进行编码处理，计算时序特征与空间特征相互之间的潜在自适应，通过t ransformer自注意力进行特征间的交叉表示；步骤S4、拼接特征，并对特征进行融合，通过回归、分类预测边界框位置以及运动类别，利用IOU损失、二元交叉熵损失分别计算边界框损失和类别损失；步骤S5、根据预测结果计算相邻帧各个类别的链接分数，采用维特比算法寻找生成动作管的最佳路径。 2.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法，其特征在于，所述步骤S1具体实现如下：步骤S11、将输入视频片段以l帧的间隔均匀采样作为输入视频片段；步骤S12、将输入视频片段划分为n个等长的帧集，即S＝{s1,s2,…,sn}，每个帧集sfi由等长的视频帧序列组成， fi∈[1,n]；步骤S13、抽取s1、 sn/2、 sn帧集，选取帧集中间帧作为关键帧简要表示动作。 3.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法，其特征在于，所述步骤S2具体实现如下：步骤S21、将输入视频片段输入3D骨干网络即R(2+1)D网络提取时序特征M(XM∈RC ×I×H×W)，其中I是输入帧的数量， H和W是输入图像的高度和宽度， C是输出通道的数量；步骤S22、所述R(2+1)D网络为动作识别中主流的主干网络之一，通过将3D卷积显式分解为两个独立且连续的操作，即2D空间卷积和1D时间卷积，对时序运动信息进行建模；步骤S23、将关键帧输入2D骨干网络即CS PNet网络提取空间特征P(XP∈RC×H×W)。 4.根据权利要求3所述的一种基于时空交叉注意力的实时动作定位方法，其特征在于，所述步骤S3具体实现如下：步骤S31、为匹配2D骨干网络的输出特征图，将R(2 +1)D网络输出特征M的深度维数减少到1，压缩为[C ×H×W]；步骤S32、将压缩后的时序特征以及空间特征的编码由[C ×H×W]大小转化为[H ×W× C]大小，并平铺特征得到M′(XM′∈RT×C)、 P′(XP′∈RT×C)，其中T＝H ×W；步骤S33、分别对时序特征XM′∈RT×C与空间特征XP′∈RT×C进行位置嵌入，使其携带时间信息，具体公式如下：其中， PE为位置嵌入矩阵，其计算公式如下：权　利　要　求　书 1/4 页 2 CN 115019239 A 2其中， PE[i,2j]表示PE位置嵌入矩阵中第i行，第2j列的值为 PE[i,2j+1] 表示PE位置嵌入矩阵中第i行，第2j+1列的值为步骤S34、计算时序特征XM'∈RT×C到空间特征XP'∈RT×C的潜在自适应表示YP′以及空间特征XP′∈RT×C到时序特征XM′∈RT×C的潜在自适应表示YM′，计算如下：计算从时序特征XM′∈RT×C到空间特征XP′∈RT×C的潜在自适应表示为YP′＝CMM′ →P′(XP′， XM′)∈RT×C：其中，定义其中，为权重； XP′， XM′通过softmax计算得分矩阵softmax (·)∈RT×T， VM′通过得分矩阵进行加权汇总得到 YP′；计算从空间特征XP′∈RT×C到时序特征XM′∈RT×C的潜在自适应表示为YM'＝CMP'→M'(XM'， XP')∈RT×C：其中，定义其中，为权重； XM'， XP'通过softmax计算得分矩阵softmax (·)∈RT×T， VP′通过得分矩阵进行加权汇总得到 YM'；步骤S35、分别将特征潜在自适应表示YP'、 YM'嵌入transformer自注意力中，使一个特征能够从另一个特征接收信息；使时序特征传递给空间特征，即由“M'→P'”表示：权　利　要　求　书 2/4 页 3 CN 115019239 A 3

专利 一种基于时空交叉注意力的实时动作定位方法

专利一种基于时空交叉注意力的实时动作定位方法