(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210787330.4
(22)申请日 2022.07.04
(71)申请人 福州大学
地址 350108 福建省福州市闽侯县福州大
学城乌龙江北 大道2号福州大 学
(72)发明人 柯逍 缪欣
(74)专利代理 机构 福州元创专利商标代理有限
公司 35100
专利代理师 陈明鑫 蔡学俊
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/766(2022.01)
G06V 10/764(2022.01)G06V 40/20(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于时空交叉注意力的实时动作定位
方法
(57)摘要
本发明涉及一种基于时空交叉注意力的实
时动作定位方法。 首先对视频片段进行采样得到
输入视频, 并通过帧集划分进行关键帧的提取,
将获取到视频片段输入R(2+1)D网络提取时序特
征, 将关键帧输入CSPNet网络提取空间特征。 其
次, 对时序特征进行压缩, 并将其与空间特征进
行编码转换。 计算时序特征与空间特征相互之间
的潜在自适应, 将其嵌入transformer 自注意力
进行特征的交叉表示, 拼接特征并利用上下文注
意力模块对特征进行融合。 最后, 通过回归、 分类
网络预测边界框位置以及运动类别, 根据预测结
果计算相邻帧各个类别的链接分数, 采用维特比
算法寻找生成动作管的最佳路径。
权利要求书4页 说明书5页 附图1页
CN 115019239 A
2022.09.06
CN 115019239 A
1.一种基于时空 交叉注意力的实时动作定位方法, 其特 征在于, 包括如下步骤:
步骤S1、 对视频片段进行采样得到 输入视频, 并通过帧集划分进行关键帧的提取;
步骤S2、 将获取到视频片段输入R(2+1)D网络提取 时序特征, 将关键帧输入CSPNet网络
提取空间特 征;
步骤S3、 压缩时序特征, 空间特征进行编码处理, 计算时序 特征与空间特征相互之间的
潜在自适应, 通过t ransformer自注意力进行 特征间的交叉表示;
步骤S4、 拼接特征, 并对特征进行融合, 通过回归、 分类预测边界框位置以及运动 类别,
利用IOU损失、 二元交叉熵损失分别计算 边界框损失和类别损失;
步骤S5、 根据预测结果计算相邻帧各个类别的链接分数, 采用维特比算法寻找生成动
作管的最佳路径。
2.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法, 其特征在于,
所述步骤S1具体实现如下:
步骤S11、 将输入视频片段以l帧的间隔均匀采样作为输入视频片段;
步骤S12、 将输入视频片段划分为n个等长的帧集, 即S={s1,s2,…,sn}, 每个帧集sfi由
等长的视频帧序列组成, fi∈[1,n];
步骤S13、 抽取s1、 sn/2、 sn帧集, 选取帧集中间帧作为关键帧简要表示动作。
3.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法, 其特征在于,
所述步骤S2具体实现如下:
步骤S21、 将输入视频片段输入3D骨干网络即R(2+1)D网络提取时序特征M(XM∈RC
×I×H×W), 其中I是输入帧的数量, H和W是输入图像的高度和宽度, C是输出通道的数量;
步骤S22、 所述R(2+1)D网络为动作识别中主流的主干网络之一, 通过将3D卷积显式分
解为两个独立且连续的操作, 即2D空间卷积和1D时间卷积, 对时序运动信息进行建模;
步骤S23、 将关键帧输入2D骨干网络即CS PNet网络提取空间特 征P(XP∈RC×H×W)。
4.根据权利要求3所述的一种基于时空交叉注意力的实时动作定位方法, 其特征在于,
所述步骤S3具体实现如下:
步骤S31、 为匹配2D骨干网络的输出特征图, 将R(2 +1)D网络输出特征M的深度维数减少
到1, 压缩为[C ×H×W];
步骤S32、 将压缩后的时序特征以及空间特征的编码由[C ×H×W]大小转化为[H ×W×
C]大小, 并平铺特 征得到M′(XM′∈RT×C)、 P′(XP′∈RT×C), 其中T=H ×W;
步骤S33、 分别对时序特征XM′∈RT×C与空间特征XP′∈RT×C进行位置嵌入, 使其携带时间
信息, 具体公式如下:
其中, PE为 位置嵌入矩阵, 其计算公式如下:
权 利 要 求 书 1/4 页
2
CN 115019239 A
2其中, PE[i,2j]表示PE位置嵌入矩阵中第i行, 第2j列的值为
PE[i,2j+1]
表示PE位置嵌入矩阵中第i行, 第2j+1列的值 为
步骤S34、 计算时序特征XM'∈RT×C到空间特征XP'∈RT×C的潜在自适应表示YP′以及空间特
征XP′∈RT×C到时序特 征XM′∈RT×C的潜在自适应表示YM′, 计算如下:
计算从时序特征XM′∈RT×C到空间特征XP′∈RT×C的潜在自适应表示为YP′=CMM′ →P′(XP′,
XM′)∈RT×C:
其中, 定义
其中,
为权重; XP′, XM′通过softmax计算得分矩阵softmax
(·)∈RT×T, VM′通过得分矩阵进行加权汇总得到 YP′;
计算从空间特征XP′∈RT×C到时序特征XM′∈RT×C的潜在自适应表示为YM'=CMP'→M'(XM',
XP')∈RT×C:
其中, 定义
其中,
为权重; XM', XP'通过softmax计算得分矩阵softmax
(·)∈RT×T, VP′通过得分矩阵进行加权汇总得到 YM';
步骤S35、 分别将特征潜在自适应表示YP'、 YM'嵌入transformer自注意力中, 使 一个特征
能够从另一个特 征接收信息; 使时序特 征传递给空间特 征, 即由“M'→P'”表示:
权 利 要 求 书 2/4 页
3
CN 115019239 A
3
专利 一种基于时空交叉注意力的实时动作定位方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:26:41上传分享