standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210787330.4 (22)申请日 2022.07.04 (71)申请人 福州大学 地址 350108 福建省福州市闽侯县福州大 学城乌龙江北 大道2号福州大 学 (72)发明人 柯逍 缪欣  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 陈明鑫 蔡学俊 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/766(2022.01) G06V 10/764(2022.01)G06V 40/20(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于时空交叉注意力的实时动作定位 方法 (57)摘要 本发明涉及一种基于时空交叉注意力的实 时动作定位方法。 首先对视频片段进行采样得到 输入视频, 并通过帧集划分进行关键帧的提取, 将获取到视频片段输入R(2+1)D网络提取时序特 征, 将关键帧输入CSPNet网络提取空间特征。 其 次, 对时序特征进行压缩, 并将其与空间特征进 行编码转换。 计算时序特征与空间特征相互之间 的潜在自适应, 将其嵌入transformer 自注意力 进行特征的交叉表示, 拼接特征并利用上下文注 意力模块对特征进行融合。 最后, 通过回归、 分类 网络预测边界框位置以及运动类别, 根据预测结 果计算相邻帧各个类别的链接分数, 采用维特比 算法寻找生成动作管的最佳路径。 权利要求书4页 说明书5页 附图1页 CN 115019239 A 2022.09.06 CN 115019239 A 1.一种基于时空 交叉注意力的实时动作定位方法, 其特 征在于, 包括如下步骤: 步骤S1、 对视频片段进行采样得到 输入视频, 并通过帧集划分进行关键帧的提取; 步骤S2、 将获取到视频片段输入R(2+1)D网络提取 时序特征, 将关键帧输入CSPNet网络 提取空间特 征; 步骤S3、 压缩时序特征, 空间特征进行编码处理, 计算时序 特征与空间特征相互之间的 潜在自适应, 通过t ransformer自注意力进行 特征间的交叉表示; 步骤S4、 拼接特征, 并对特征进行融合, 通过回归、 分类预测边界框位置以及运动 类别, 利用IOU损失、 二元交叉熵损失分别计算 边界框损失和类别损失; 步骤S5、 根据预测结果计算相邻帧各个类别的链接分数, 采用维特比算法寻找生成动 作管的最佳路径。 2.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法, 其特征在于, 所述步骤S1具体实现如下: 步骤S11、 将输入视频片段以l帧的间隔均匀采样作为输入视频片段; 步骤S12、 将输入视频片段划分为n个等长的帧集, 即S={s1,s2,…,sn}, 每个帧集sfi由 等长的视频帧序列组成, fi∈[1,n]; 步骤S13、 抽取s1、 sn/2、 sn帧集, 选取帧集中间帧作为关键帧简要表示动作。 3.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法, 其特征在于, 所述步骤S2具体实现如下: 步骤S21、 将输入视频片段输入3D骨干网络即R(2+1)D网络提取时序特征M(XM∈RC ×I×H×W), 其中I是输入帧的数量, H和W是输入图像的高度和宽度, C是输出通道的数量; 步骤S22、 所述R(2+1)D网络为动作识别中主流的主干网络之一, 通过将3D卷积显式分 解为两个独立且连续的操作, 即2D空间卷积和1D时间卷积, 对时序运动信息进行建模; 步骤S23、 将关键帧输入2D骨干网络即CS PNet网络提取空间特 征P(XP∈RC×H×W)。 4.根据权利要求3所述的一种基于时空交叉注意力的实时动作定位方法, 其特征在于, 所述步骤S3具体实现如下: 步骤S31、 为匹配2D骨干网络的输出特征图, 将R(2 +1)D网络输出特征M的深度维数减少 到1, 压缩为[C ×H×W]; 步骤S32、 将压缩后的时序特征以及空间特征的编码由[C ×H×W]大小转化为[H ×W× C]大小, 并平铺特 征得到M′(XM′∈RT×C)、 P′(XP′∈RT×C), 其中T=H ×W; 步骤S33、 分别对时序特征XM′∈RT×C与空间特征XP′∈RT×C进行位置嵌入, 使其携带时间 信息, 具体公式如下: 其中, PE为 位置嵌入矩阵, 其计算公式如下: 权 利 要 求 书 1/4 页 2 CN 115019239 A 2其中, PE[i,2j]表示PE位置嵌入矩阵中第i行, 第2j列的值为 PE[i,2j+1] 表示PE位置嵌入矩阵中第i行, 第2j+1列的值 为 步骤S34、 计算时序特征XM'∈RT×C到空间特征XP'∈RT×C的潜在自适应表示YP′以及空间特 征XP′∈RT×C到时序特 征XM′∈RT×C的潜在自适应表示YM′, 计算如下: 计算从时序特征XM′∈RT×C到空间特征XP′∈RT×C的潜在自适应表示为YP′=CMM′ →P′(XP′, XM′)∈RT×C: 其中, 定义 其中, 为权重; XP′, XM′通过softmax计算得分矩阵softmax (·)∈RT×T, VM′通过得分矩阵进行加权汇总得到 YP′; 计算从空间特征XP′∈RT×C到时序特征XM′∈RT×C的潜在自适应表示为YM'=CMP'→M'(XM', XP')∈RT×C: 其中, 定义 其中, 为权重; XM', XP'通过softmax计算得分矩阵softmax (·)∈RT×T, VP′通过得分矩阵进行加权汇总得到 YM'; 步骤S35、 分别将特征潜在自适应表示YP'、 YM'嵌入transformer自注意力中, 使 一个特征 能够从另一个特 征接收信息; 使时序特 征传递给空间特 征, 即由“M'→P'”表示: 权 利 要 求 书 2/4 页 3 CN 115019239 A 3

.PDF文档 专利 一种基于时空交叉注意力的实时动作定位方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时空交叉注意力的实时动作定位方法 第 1 页 专利 一种基于时空交叉注意力的实时动作定位方法 第 2 页 专利 一种基于时空交叉注意力的实时动作定位方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:26:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。