专利 一种基于YOLOv5l和注意力机制的实时表情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211198186.7 (22)申请日 2022.09.29 (71)申请人天津师范大学地址 300387 天津市西青区宾水西道393号 (72)发明人韩婷婷　钟红梅　 (74)专利代理机构北京中政联科专利代理事务所(普通合伙) 11489 专利代理师陈超 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于YOLOv5l和注意力机制的实时表情识别方法 (57)摘要本发明公开了一种基于YOLOv5l和注意力机制的实时表情识别方法，所述方法包括：获取训练图像和验证图像；使用所述训练图像对原始 YOLOv5l模型进行预训练，得到原始YOLOv5l模型的预训练权重；将注意力机制加入到原始 YOLOv5l模型的主干网结构中，得到改进YOL Ov5l 模型；使用所述训练图像和预训练权重对于所述改进YOLOv5l模型进行重新训练，得到所述改进 YOLOv5l模型的新训练权重；利用具有新训练权重的改进YOL Ov5l模型对于目标对象的表情进行检测。本发明结合通道和空间注意力机制，不仅实现了目标表情实时识别的功能，提升了表情识别的准确率，还提升了表情识别的速度。权利要求书2页说明书8页附图5页 CN 115497140 A 2022.12.20 CN 115497140 A 1.一种基于 YOLOv5l和注意力机制的实时表情识别方法，其特征在于：步骤S1：获取训练图像和验证图像；步骤S2：使用所述训练图像对原始YOLOv5l模型进行预训练，得到原始YOLOv5l模型的预训练权重；步骤S3：将注意力机制加入到原始YOLOv5l模型的主干网结构中，得到改进YOLOv5l模型；步骤S4：使用所述训练图像和预训练权重对于所述改进YOLOv5l模型进行重新训练，得到所述改进YOLOv5l模型的新训练权重；步骤S5：利用具有新训练权重的改进YOLOv5l模型对于目标对象的表情进行检测。 2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：步骤S1‑1，对于公开数据集中的图像根据预设规则进行筛选；步骤S1‑2，对于筛选得到的图像进行校对和标注，得到图像对应的表情标签数据；步骤S1‑3，将标注完成的图像划分为训练图像和验证图像。 3.根据权利要求1所述的方法，其特征在于，在步骤S3中，在所述原始YOLOv5l模型主干网结构中每个卷积残差网络CSP1_X模块的每个标准卷积CBS模块后加入注意力机制，得到改进YOLOv5l模型。 4.根据权利要求3所述方法，所述改进YOLOv5l模型包括依次连接的Focus模块、第一 CBS模块、 CSP1_1A模块、第二CBS模块、第一CSP1_3A模块、第三CBS模块、第二CSP1_3A模块、第四CBS模块、空间金字塔池化SPP模块、第一CSP2_1模块、第五CBS模块、第一上采样 Unsample模块、第一拼接Concat模块、第二CSP2 _1模块、第六CBS 模块、第二上采样U nsample 模块、第二拼接Concat模块、第三CSP2_1模块、第一卷积模块Conv、第七CBS模块、第三拼接 Concat模块、第四CSP2_1模块、第二卷积模块Conv、第八CBS模块、第四拼接Concat模块、第五CSP2_1模块、第三卷积模块Conv，其中，所述第一上采样Unsample模块的输出与第二 CSP1_3A模块的输出拼接并输入第一拼接Concat模块；第二上采样Unsample模块的输出与第一CSP1_3A模块的输出拼接并输入第二拼接Concat模块；第三CSP2_1模块的输出输入第一卷积模块Conv的输入端，第一卷积模块Conv的输出作为所述改进YOLOv5l模型的第一输出结果；第四CSP2_1模块的输出输入第二卷积模块Conv的输入端，第二卷积模块Conv的输出作为所述改进YOLOv5l模型的第二输出结果；第五CSP2_1模块的输出输入第三卷积模块 Conv的输入端，第三卷积模块Co nv的输出作为所述改进YOLOv5l模型的第三输出结果。 5.根据权利要求1所述方法，其特征在于，在步骤S3中，在所述原始YOLOv5l模型主干网结构中的Focus模块后加入注意力机制，或者在所述原始Y OLOv5l模型主干网结构中的每个 CBS模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的SPP模块后加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块和SPP模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块和SPP模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块和每个CBS模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的每个CBS模块和每个CSP1_X模块的每个标准卷积 CBS模块后分别加入注意力机制，或者在所述原始YOLOv5l模型主干网结构中的Focus模块、每个CBS模块、每个CSP1_X模块的每个标准卷积 CBS模块后和 SPP模块后分别加入注意力机制。权　利　要　求　书 1/2 页 2 CN 115497140 A 26.根据权利要求1所述的方法，其特征在于，在步骤S4中，在对于所述改进YOLOv5l模型进行重新训练时，将所述训练图像输入到所述改进YOLOv5l模型中，通过调整模型的学习率、动量、迭代次数来实现对于所述改进YOLOv5l模型的重新训练。 7.根据权利要求1所述的方法，其特征在于，所述步骤S5包括以下步骤：步骤S5‑1：加载具有新训练权重的改进YOLOv5l模型；步骤S5‑2：通过界面选择识别数据来源，其中，所述数据来源包括摄像头或本地视频；步骤S5‑3：若选择摄像头，则打开摄像头，输入表情识别结果保存位置，若检测到目标对象表情，则使用矩形框将目标对象脸部自动框选出来，同时界面显示表情识别结果，并可选择打印表情识别结果日志；若选择本地视频，则打开本地视频，输入识别帧数以及表情识别结果保存位置，若检测到目标对象表情，则使用矩形框将目标对象脸部自动框选出来，同时界面显示表情识别结果，并可选择打印表情识别结果日志。权　利　要　求　书 2/2 页 3 CN 115497140 A 3

专利 一种基于YOLOv5l和注意力机制的实时表情识别方法

专利一种基于YOLOv5l和注意力机制的实时表情识别方法