(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210469746.1
(22)申请日 2022.04.28
(71)申请人 南京信息技 术研究院
地址 210036 江苏省南京市 鼓楼区浦江路
23号
(72)发明人 张昕 李琦 钟章平 张婧
(74)专利代理 机构 南京华恒专利代理事务所
(普通合伙) 32335
专利代理师 宋方园
(51)Int.Cl.
G06V 20/52(2022.01)
(54)发明名称
基于二阶目标检测和语义识别的货车归属
识别方法
(57)摘要
本发明公开一种基于二阶目标检测和语义
识别的货车归属识别方法, 通过位置布置高清视
频采集设备收集货车图片, 手工标注车身贴标位
置及具有标识性的问题, 分别用于训练第二阶段
目标检测模 型和语义识别模型。 在一阶目标检测
阶段完成货车位置的确定, 二阶目标检测阶段 实
现车身贴标的位置确定和类型识别, 结合文字识
别结果完成车身贴标类型的最终确定, 依据贴标
类型判定 车辆归属, 给出是否本单位车辆的判别
结果。 整体流程由采集端、 网络模块及推理端协
作完成, 可实现无人监测, 有效降低了对人工的
依赖度。
权利要求书2页 说明书5页 附图5页
CN 114973123 A
2022.08.30
CN 114973123 A
1.一种基于二阶目标检测和语义识别的货车归属识别方法, 其特征在于: 包括以下步
骤:
步骤1: 在车辆出入口和货车停车区域位置部署网路摄像头, 并确保网络摄像头正对货
车两侧, 各网络摄像头通过网络模块与监控中心的神经网络推理服务器连接, 神经网络推
理服务器将推理结果推送至网路监视器;
步骤2: 通过网络摄像头采集货车车身两侧图片, 经人工筛选后, 手工标注车身贴标的
位置及类型, 依据贴标位置裁剪 贴标图片, 并标注贴标主要内容, 按一定比例制作训练集和
测试集;
步骤3: 利用标注车身贴标位置的数据集来训练二阶PP ‑yolo目标检测模型; 使用依据
贴标位置 裁剪得到的图片和内容标注来训练文字识别神经网络SE ED;
步骤4: 一阶目标检测利用公开的PP ‑yolo物体识别模型确定货车位置, 二阶目标检测
在货车位置内使用自训练好的二阶PP ‑yolo目标检测模型检测贴标位置及类型, 并使用训
练好的文字识别神经网络SE ED识别车 标内容;
按一定比例组合PP ‑yolo输出的车标类型和 SEED文字识别内容, 确定车身贴标类型, 进
而确定车辆归属;
将一阶目标检测确定的货车位置及车辆归属表述在实时视频上, 推送至网络监视器显
示。
2.根据权利要求1所述的基于二阶目标检测和语义识别的货车归属识别方法: 其特征
在于: 所述PP ‑yolo目标检测模型中的BackBone骨干网络采用ResNet ‑50_vd, 同时将
ResNet50的下采样模块中short cut分支加上均值池化层; Detection Neck采用特征金字塔
结构实现特 征融合; Detecti on Head通过3x3卷积, 并在最后用1x1卷积调整通道数量;
二阶PP‑yolo目标检测模型的训练过程 为:
步骤①、 通过labelme手工标注货车图片中的贴车位置和 贴车类别, 转换形成xml标签
文件;
步骤②、 分批次将步骤 ①处理后的货车图片输入到未经训练的初始PP ‑yolo网络, 使用
手工标签 计算如公式(1)所示的损失函数;
L=Lcross+λLbox+β Lobject (1)
其中, Lcross表示交叉熵损失, 用于计算输出类别和实际类别之间的交叉熵, Lbox表示回
归损失, 用于计算网络输出目标位置和实际位置之间的L1距离, Lobject表示置信度损失, 用
于判别当前边界框中是否存在目标, λ和β 都是超参数;
步骤③、 重复步骤 ①和步骤②, 直至损失函数小于预设值。
3.根据权利要求1所述的基于二阶目标检测和语义识别的货车归属识别方法: 其特征
在于: 所述步骤3中文字识别神经网络SEED的结构包括编码器、 语义模块、 解码器和预训练
语言模型;
所述编码器包括CNN主干和RNN, 通过编码器提取视觉特征; 所述语义模块从提取到的
视觉特征中预测语义信息; 所述预训练语言模型监督语义模块预测的语义信息; 所述解码
器包括RN N生成识别结果的注意力机制。
4.根据权利要求3所述的基于二阶目标检测和语义识别的货车归属识别方法: 其特征
在于: 所述文字神经网络SE ED的训练过程 为:权 利 要 求 书 1/2 页
2
CN 114973123 A
2步骤①、 将损失函数设计, 在语义模块和解码器模块中均加入监 督, 如公式(2)所示;
L=Lrec+γLsem (2)
其中, Lrec是预测概率相对于真实标签的标准交叉熵损失, Lsem是预测语义信息相对于
转录标签的词嵌入损失; γ是平衡损失的超参数, Lsem使用简单的余弦函数计算损失, 如公
式(3)所示;
其中, S表示预测的语义信息, em是真实语义的词嵌入输出;
Lsem=1‑cos(S,em) (3)
步骤②、 对二阶PP ‑yolo目标检测所得图片进行剪裁, 得到车贴位置图片, 并人工标注
图片的文字内容;
步骤③、 用预训练语言模型输出的词嵌入向量对解码器进行初始化;
步骤④、 将车贴位置图片输入SEED网络, 将人工标注的车贴文字内容作为监督训练的
标签, 使用公式(2)进行端到端的有监 督训练;
步骤⑤、 重复步骤 ②、③和④, 直至损失函数小于预设值。权 利 要 求 书 2/2 页
3
CN 114973123 A
3
专利 基于二阶目标检测和语义识别的货车归属识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:01:39上传分享