专利 基于二阶目标检测和语义识别的货车归属识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210469746.1 (22)申请日 2022.04.28 (71)申请人南京信息技术研究院地址 210036 江苏省南京市鼓楼区浦江路 23号 (72)发明人张昕　李琦　钟章平　张婧　 (74)专利代理机构南京华恒专利代理事务所 (普通合伙) 32335 专利代理师宋方园 (51)Int.Cl. G06V 20/52(2022.01) (54)发明名称基于二阶目标检测和语义识别的货车归属识别方法 (57)摘要本发明公开一种基于二阶目标检测和语义识别的货车归属识别方法，通过位置布置高清视频采集设备收集货车图片，手工标注车身贴标位置及具有标识性的问题，分别用于训练第二阶段目标检测模型和语义识别模型。在一阶目标检测阶段完成货车位置的确定，二阶目标检测阶段实现车身贴标的位置确定和类型识别，结合文字识别结果完成车身贴标类型的最终确定，依据贴标类型判定车辆归属，给出是否本单位车辆的判别结果。整体流程由采集端、网络模块及推理端协作完成，可实现无人监测，有效降低了对人工的依赖度。权利要求书2页说明书5页附图5页 CN 114973123 A 2022.08.30 CN 114973123 A 1.一种基于二阶目标检测和语义识别的货车归属识别方法，其特征在于：包括以下步骤：步骤1：在车辆出入口和货车停车区域位置部署网路摄像头，并确保网络摄像头正对货车两侧，各网络摄像头通过网络模块与监控中心的神经网络推理服务器连接，神经网络推理服务器将推理结果推送至网路监视器；步骤2：通过网络摄像头采集货车车身两侧图片，经人工筛选后，手工标注车身贴标的位置及类型，依据贴标位置裁剪贴标图片，并标注贴标主要内容，按一定比例制作训练集和测试集；步骤3：利用标注车身贴标位置的数据集来训练二阶PP ‑yolo目标检测模型；使用依据贴标位置裁剪得到的图片和内容标注来训练文字识别神经网络SE ED；步骤4：一阶目标检测利用公开的PP ‑yolo物体识别模型确定货车位置，二阶目标检测在货车位置内使用自训练好的二阶PP ‑yolo目标检测模型检测贴标位置及类型，并使用训练好的文字识别神经网络SE ED识别车标内容；按一定比例组合PP ‑yolo输出的车标类型和 SEED文字识别内容，确定车身贴标类型，进而确定车辆归属；将一阶目标检测确定的货车位置及车辆归属表述在实时视频上，推送至网络监视器显示。 2.根据权利要求1所述的基于二阶目标检测和语义识别的货车归属识别方法：其特征在于：所述PP ‑yolo目标检测模型中的BackBone骨干网络采用ResNet ‑50_vd，同时将 ResNet50的下采样模块中short cut分支加上均值池化层； Detection Neck采用特征金字塔结构实现特征融合； Detecti on Head通过3x3卷积，并在最后用1x1卷积调整通道数量；二阶PP‑yolo目标检测模型的训练过程为：步骤①、通过labelme手工标注货车图片中的贴车位置和贴车类别，转换形成xml标签文件；步骤②、分批次将步骤 ①处理后的货车图片输入到未经训练的初始PP ‑yolo网络，使用手工标签计算如公式(1)所示的损失函数； L＝Lcross+λLbox+β Lobject (1) 其中， Lcross表示交叉熵损失，用于计算输出类别和实际类别之间的交叉熵， Lbox表示回归损失，用于计算网络输出目标位置和实际位置之间的L1距离， Lobject表示置信度损失，用于判别当前边界框中是否存在目标， λ和β 都是超参数；步骤③、重复步骤 ①和步骤②，直至损失函数小于预设值。 3.根据权利要求1所述的基于二阶目标检测和语义识别的货车归属识别方法：其特征在于：所述步骤3中文字识别神经网络SEED的结构包括编码器、语义模块、解码器和预训练语言模型；所述编码器包括CNN主干和RNN，通过编码器提取视觉特征；所述语义模块从提取到的视觉特征中预测语义信息；所述预训练语言模型监督语义模块预测的语义信息；所述解码器包括RN N生成识别结果的注意力机制。 4.根据权利要求3所述的基于二阶目标检测和语义识别的货车归属识别方法：其特征在于：所述文字神经网络SE ED的训练过程为：权　利　要　求　书 1/2 页 2 CN 114973123 A 2步骤①、将损失函数设计，在语义模块和解码器模块中均加入监督，如公式(2)所示； L＝Lrec+γLsem (2) 其中， Lrec是预测概率相对于真实标签的标准交叉熵损失， Lsem是预测语义信息相对于转录标签的词嵌入损失； γ是平衡损失的超参数， Lsem使用简单的余弦函数计算损失，如公式(3)所示；其中， S表示预测的语义信息， em是真实语义的词嵌入输出； Lsem＝1‑cos(S,em) (3) 步骤②、对二阶PP ‑yolo目标检测所得图片进行剪裁，得到车贴位置图片，并人工标注图片的文字内容；步骤③、用预训练语言模型输出的词嵌入向量对解码器进行初始化；步骤④、将车贴位置图片输入SEED网络，将人工标注的车贴文字内容作为监督训练的标签，使用公式(2)进行端到端的有监督训练；步骤⑤、重复步骤 ②、③和④，直至损失函数小于预设值。权　利　要　求　书 2/2 页 3 CN 114973123 A 3

专利 基于二阶目标检测和语义识别的货车归属识别方法

专利基于二阶目标检测和语义识别的货车归属识别方法