(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210521070.6
(22)申请日 2022.05.13
(71)申请人 埃夫特智能装备股份有限公司
地址 241000 安徽省芜湖市中国 (安徽) 自
由贸易试验区芜湖片区万春东路96号
(72)发明人 文豪 陆哲明 李浩来 崔家林
(74)专利代理 机构 北京汇信合知识产权代理有
限公司 1 1335
专利代理师 王帅
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/52(2022.01)
G06V 20/40(2022.01)
G06V 10/764(2022.01)
G06V 10/32(2022.01)G06V 10/25(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向智慧工厂的视频动作识别方法及
系统
(57)摘要
本发明涉及深度学习动作 识别技术领域, 具
体是一种面向智慧工厂的视频动作识别方法及
系统, 该识别方法具体包括如下步骤: S101、 工厂
视频数据片段生成步骤S102、 工厂工人作业动作
数据集生成步骤; S103、 工厂作业目标检测数据
集生成步骤; S104、 工厂工人动作识别模型建模
方法步骤; S105、 工厂工人位置信息编码网络训
练步骤; S106、 工厂工人行为识别算法的搭建;
S107、 行为识别输入 步骤; S108、 行为识别输 出步
骤; 具体系统包括: 模型训练程序、 标注文件生成
程序、 模型训练电子设备、 处理计算中心、 服务
端、 视频监控终端; 相对于传统动作识别方法通
常只采用RGB特征对视频进行表示, 本发明在获
取视频特征时, 将会大大排除其余信息影响, 从
而提高工厂工人动作识别的效果。
权利要求书3页 说明书7页 附图6页
CN 114898466 A
2022.08.12
CN 114898466 A
1.一种面向智慧工厂的视频动作识别方法, 其特 征在于: 具体包括如下步骤:
S101、 工厂视频数据片段生成步骤: 利用图像预处理技术对工厂工人作业的视频进行
处理和加工, 将所有原 始录像转换为可利用的工厂工人作业数据片段;
S102、 工厂工人作业动作数据集生成步骤: 将工厂工人作业数据片段打好标签进行归
类, 将工厂工人作业数据片段制作为可以供动作识别模型 学习的数据;
S103、 工厂作业目标检测数据集生成步骤: 将工人作业视频输出成帧, 对图片进行采
样, 对人、 工作台、 作业工件类目标进行选 框标注;
S104、 工厂工人动作识别模型建模方法步骤: 将工厂工人作业动作数据集数据集数据
通过帧采样, 裁切和数据增强后, 转化为模型可接受的标准数据序列输入适用与视频理解
的3D‑ResNet深度神经网络进行模型的训练;
S105、 工厂工人位置信息编码网络训练步骤: 将工厂作 业目标检测数据集经过缩放、 归
一化类预处理, 以及翻转、 随机位置、 mosaic类数据增强方法后输入目标检测算法进行训
练, 以使其能提供工人、 操作台以及被操作工件的位置信息, 然后 将位置信息嵌入一个多通
道矩阵输入位置编码支路训练;
S106、 工厂工人行为识别算法的搭建: 将训练好的动作识别模型以及位置信息编码模
型尾部输出的深度特征拼接起来, 使动作 识别网络和位置信息编 码网络分别形成动作 识别
支路和位置信息编码支路, 组成包含位置信息编码的反应工人行为的深度特征, 再输入一
层全连接层并且冻结之前的网络参数进行训练, 得到 完整的工人工人 行为识别模型;
S107、 行为识别输入步骤: 将需要识别工人 行为的视频输入工厂工人 行为识别模型;
S108、 行为识别输出步骤: 基于训练好的工厂工人行为识别模型得到行为预测概率向
量, 再对比行为类别向量, 得到行为识别结果, 同时将识别结果通过socket通信方式发送至
服务器。
2.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法, 其特征在于: 所述的
步骤S101对工厂工人作业的视频进行处理和加工具体包括: 对监控视频流数据进行预处
理、 标注和归类, 将所述 监控视频流 转换为工人动作识别数据集。
3.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法, 其特征在于: 所述的
步骤S102中的工厂视频数据片段生 成步骤具体如下: 先利用图像裁剪技术对视频画幅裁切
到工人的工作区域, 以排除其他区域的影响, 利用视频剪辑技术先对工厂工人作业视频根
据动作种类, 以动作起始点 为开始, 动作结束点 为终结进行片段剪辑。
4.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法, 其特征在于: 所述的
步骤S103的工件目标检测数据的标注规范如下: 将工人作业视频输出成帧, 对图片进行采
样, 选出有人操作的工件, 并不是画面中所有工件都要标注, 只检测正在被工人操作的工
件, 以避免给神经网络 输入无关动作的噪声信息 。
5.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法, 其特征在于: 所述的
步骤S104中工厂工人行为的识别神经网络由两条神经网络支路构成, 其中一条为基于3D ‑
ResNet的经典深度学习动作 识别算法, 基于3D卷积核构成, 可以再时间维度上移动, 提取时
序特征, 直接获取连续的帧序列 识别动作; 另一条为深度位置信息编 码网络, 先将目标检测
算法提取的帧序列位置信息嵌入一个四维矩阵, 再输入深度位置信息编码支路最后 将动作
识别支路输出 的动作建模深度特征与位置信息编码支路输出的深度位置编码进行拼接输权 利 要 求 书 1/3 页
2
CN 114898466 A
2入一层全连接层进行 预测。
6.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法, 其特征在于: 所述的
步骤S105中针对工厂工人动作识别目标检测特点的帧序列位置信息特征嵌入矩阵的设计
步骤具体过程如下: 采用待检测的视频片段上采样的n个帧进 行目标检测, 先每一帧上的检
测信息嵌入一个k通道的矩阵里, k数量取决与动作识别关注的目标种类的个数, 每个通道
都是一个1*4大小的矩阵, 内含每个目标检测框的信息, 每个通道分别代表 一类目标的位置
信息。
7.利用权利要求1至6中任一项所述的一种面向智慧工厂的视频动作识别方法的系统,
其特征在于: 包括:
模型训练程序, 用于输入数据集文件分别 到动作识别支路得到动作信 息深度向量以及
将数据集文件输入到Y OLO目标检测网络, 得到目标位置信息矩阵再输入位置信息编码网络
输出位置信息深度编码;
标注文件生成程序, 将数据集的详细信息以字典文件的形式构造出来, 以方便训练模
块随时取用;
模型训练电子设备, 用于将模型训练验证循环的得到的模型参数保存为文件, 且将训
练验证数据输出为日志文件;
视频监控终端, 用于获取 数据;
处理计算中心, 用于将传输来的视频 数据处理识别后传输给 下一终端;
服务端, 用于传输来的数据进行识别结果存 储与使用。
8.根据权利要求7 所述的系统, 其特 征在于: 所述的模型训练程序具体包括:
视频采样模块, 将输入视频中的帧按照等间隔采样或者 等间隔随机采样;
图像预处理模块, 将视频帧进行格 式转化、 画面裁切、 尺寸缩放、 类别标注等, 将原始视
频片段转 化为可供模型训练使用的工人 行为数据集;
动作识别网络模块, 将输入的工人行为视频数据集结果神经网络转化为行为深度 特征
向量, 为下一 步工人行为识别提供视频中的表 观、 时序类相关信息;
目标检测网络模块, 用于检测视频帧中算法感兴趣的目标种类以及位置, 并提供给下
一步的位置信息编码模块;
位置信息编码模块, 将目标检测模块输出的目标种类以及位置信息嵌入位置信息矩
阵, 在经由位置信息深度编码网络转 化为位置信息深度特 征向量;
联合网络训练模块, 用于冻结指定模块的参数, 并由动作识别模块提供的行为深度特
征向量和 位置信息编码模块提供的位置信息深度特征向量拼接的联合深度信息 向量得出
工人动作的预测概 率。
9.根据权利要求7所述的系统, 其特征在于: 所述的模型训练电子设备包括存储模型参
数和数据集以及标注文件的储存器、 模 型算法训练的处理器、 模型训练算法存储器、 视频的
录制终端。
10.根据权利要求7所述的系统, 其特征在于: 所述的处理计算中心包括行为识别网络
模型文件库、 计算中心、 存储器、 服务端; 所述的识别网络模型文件库将深度神经网络的参
数数据保存等待计算中心取用; 所述的计算中心对视频监控终端传输来的视频数据进 行预
处理、 特征提取以及行为预测, 预测结果保存在存储器的日志文件上同时传输到服务端以权 利 要 求 书 2/3 页
3
CN 114898466 A
3
专利 一种面向智慧工厂的视频动作识别方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:00:57上传分享