(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210500534.5
(22)申请日 2022.05.09
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市下城区潮王路
18号
(72)发明人 应凯宁 王振华
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 忻明年
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/32(2022.01)
G06V 10/44(2022.01)G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于自注意力机制的人交互行为检测
方法
(57)摘要
本发明公开了一种基于自注意力机制的人
交互行为检测方法, 将预处理后的视频片段输入
到构建好的识别网络模型, 经过骨干网络提取时
空特征, 将提取的时空特征进行降维, 然后将降
维后时空特征进行展平, 再进行位置编码得到含
有位置信息的特征向量, 将含有位置信息的特征
向量输入到编码器中得到共享特征。 然后通过两
个解码器得到实例嵌入与交互关系嵌入, 最后通
过相似度解码器得到每一个实例与交互关系之
间的实例交互特征, 通过一个分类操作得到每一
个实例与交互关系之间的相似度, 确定每一实例
所属的交 互关系。
权利要求书1页 说明书6页 附图2页
CN 114782995 A
2022.07.22
CN 114782995 A
1.一种基于自注意力机制的人交互行为检测方法, 其特征在于, 所述基于自注意力机
制的人交 互行为检测方法, 包括:
对于待检测的图像帧, 取其前后预设数量的图像帧组成一个视频片段, 对视频片段进
行预处理;
将预处理后的视频片段输入到快慢双通道网络SlowFast中, 将所述快慢双通道网络
SlowFast双通道输出的特 征进行拼接, 得到提取到的时空特 征;
将提取的时空特征进行降维, 然后将降维后 时空特征进行展平, 再进行位置编码得到
含有位置信息的特 征向量;
将含有位置信息 的特征向量输入到神经网络Transformer的编码器中得到共享特征,
将共享特征和实例查询 输入到实例解码器, 得到实例特征, 将共享特征和交互关系查询 输
入到交互关系解码器, 得到交互关系 特征, 并分别将实例特征和交互关系 特征输入到预测
网络中, 进行分类、 回归以及嵌入操作;
将嵌入操作 得到的实例嵌入与交互关系嵌入拼接为实例交互对, 然后将 实例交互对和
共享特征输入相似度解码器, 得到每一个实例与交互关系之间的实例交互特征, 通过一个
分类操作得到每一个实例与交 互关系之间的相似度, 确定每一实例所属的交 互关系。
2.根据权利要求1所述的基于自注意力 机制的人交互行为检测方法, 其特征在于, 所述
编码器包括6个多头注意力模块, 每个多头注意力模块包括多头自注意力层、 标准层、 全连
接层和标准层。
3.根据权利要求1所述的基于自注意力 机制的人交互行为检测方法, 其特征在于, 所述
实例解码器、 交互关系解码器和相似度解码器, 分别包括6个多头注意力模块, 每个多头注
意力模块包括多头自注意力层、 标准层、 多头交叉注意力连接层、 标准层、 全连接层和标准
层。
4.根据权利要求1所述的基于自注意力 机制的人交互行为检测方法, 其特征在于, 所述
确定每一实例所属的交 互关系, 包括:
根据实例与交互关系之间的相似度, 取最大相似度对应的交互关系作为实例所属的交
互关系。
5.根据权利要求4所述的基于自注意力 机制的人交互行为检测方法, 其特征在于, 所述
交互关系中, 没有实例从属的交 互关系为无效交 互关系。权 利 要 求 书 1/1 页
2
CN 114782995 A
2一种基于自注意力机制的 人交互行为检测方 法
技术领域
[0001]本申请属于人交互行为检测技术领域, 尤其涉及 一种基于自注意力机制的人行为
交互检测方法。
背景技术
[0002]对人交互行为理解是在计算机视觉领域非常基础的一个任务, 其对下游任务都有
很多帮助, 比如视频监控、 关键事件检索、 全体行为理解以及体育分析。 人交互行为理解的
任务要求是对视觉信号中的人 交互情况进 行预测, 其中要求对场景中的每一个人进行定位
和动作类别预测, 以及找出人与人之间的交互关系。 由于交互这种行为比较抽象复杂, 因此
计算机完成精确的交 互行为预测往 往面临着较大的挑战。
[0003]现阶段的人交互行为理解主要有两个方向, 分别为人交互行为分类以及人交互行
为检测。 人交互行为分类是近期比较热门的一个方向, 给定一个场景以及给定了场景中的
人的定位(目标框), 模型需要在此基础上对每一个人进行动作识别以及交 互关系预测。
[0004]Spatio‑Temporal CRF将识别任务分为了两个阶段, 其中第一个阶段基于局部的
视觉特征来区分交互与无 交互, 动作以及活动; 在第二个阶段, 动作以及活动将在局部预测
结果的基础上使用全局的一种 方式进行预测。 基于这种假设, 该方法提出了一种新颖的条
件随机场(CRF)对交 互行为进行时空建模。
[0005]CAGNet提出了一种一致性感知 图网络对人与人进行建模, 该方法由三个模块组
成, 首先使用了骨干网络用于提取视觉特征, 一个因子图网络用于学习三阶交互关系以及
一个一致性感知 模块来强行地匹配动作 识别以及交互预测的一致性, 这种将交互人群用图
的方式进 行建模, 并且采用一些逻辑对预测进行约束的方法在人 交互行为分类上取得了先
进的效果。
[0006]然而对人的交互行为检测却是一个很少被提及以及研究的方向, 交互行为检测需
要在仅仅给定场景的情况下, 对场景中的人进行定位、 分类以及交互情况预测, 与对人 交互
行为分类相比多了检测的过程。
发明内容
[0007]本申请的目的是提供一种基于自注意力机制的人行为交互检测方法, 较好地解决
了交互行为检测问题, 并且取 得了令人满意的结果。
[0008]为了实现上述目的, 本申请技 术方案如下:
[0009]一种基于自注意力机制的人交 互行为检测方法, 包括:
[0010]对于待检测的图像帧, 取其前后预设数量的图像帧组成一个视频片段, 对视频片
段进行预处理;
[0011]将预处理后的视频片段输入到快慢双通道网络S lowFast中, 将所述快慢双通道网
络SlowFast双通道输出的特 征进行拼接, 得到提取到的时空特 征;
[0012]将提取的时空特征进行降维, 然后将降维后时空特征进行展平, 再进行位置编码说 明 书 1/6 页
3
CN 114782995 A
3
专利 一种基于自注意力机制的人交互行为检测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:59:43上传分享