(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210964239.5 (22)申请日 2022.08.11 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 徐常胜 姚涵涛  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 陈威 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/778(2022.01)G06V 10/80(2022.01) (54)发明名称 视频识别模 型增量训练方法、 视频识别方法 及装置 (57)摘要 本发明提供一种视频识别模型增量训练方 法、 视频识别方法及装置, 其中训练方法包括: 确 定当前轮的样本模态特征和类别标签; 并基于历 史识别模型, 确定初始识别模型; 基于记忆单元 中历史模态特征和样本模态特征, 应用历史识别 模型和初始识别模型, 确定第一结果分布差异和 第二结果分布差异; 基于样本模态特征、 类别标 签、 第一结果分布差异和第二结果分布差异, 对 初始识别模型进行训练, 得到当前识别模型, 实 现了以当前轮的模型输出结果分布与历史识别 模型输出结果接近, 以让当前识别模 型能够保存 历史识别模 型的模型知 识, 缓解增量训练时灾难 性遗忘的问题, 提高了识别模型的抗遗 忘能力。 权利要求书3页 说明书17页 附图3页 CN 115457426 A 2022.12.09 CN 115457426 A 1.一种视频识别模型增量训练方法, 其特 征在于, 包括: 确定当前轮的样本模态特 征和类别标签; 并基于历史识别模型, 确定初始 识别模型; 基于记忆单元中的历史模态特征, 应用所述历史识别模型和所述初始识别模型, 确定 第一结果分布差异; 并基于所述样本模态特征, 应用所述历史识别模型和所述初始识别模 型, 确定第二结果分布差异; 基于所述样本模态特征、 所述类别标签、 所述第一结果分布差异和所述第二结果分布 差异, 对所述初始 识别模型进行训练, 得到当前识别模型; 将所述当前识别模型作为所述历史识别模型, 以及将预设数量的所述样本模态特征和 所述类别标签存入所述记忆单元中用于下一轮训练迭代; 并将迭代完成得到的所述当前识 别模型作为视频识别模型。 2.根据权利要求1所述的视频识别模型增量训练方法, 其特征在于, 所述基于所述样本 模态特征、 所述类别标签、 所述第一结果分布差异和所述第二结果分布差异, 对 所述初始识 别模型进行训练, 得到当前识别模型, 包括: 基于所述初始 识别模型, 应用所述样本模态特 征, 得到当前 结果分布; 基于所述第一结果分布差异和所述第二结果分布差异, 确定层级逻辑损 失; 并基于所 述当前结果分布和所述类别标签, 确定监 督损失; 基于所述层级逻辑损失和所述监督损失, 确定联合损失, 并基于所述联合损失, 对所述 初始识别模型参数进行迭代更新, 直至所述联合损失收敛, 得到所述当前识别模型。 3.根据权利要求2所述的视频识别模型增量训练方法, 其特征在于, 所述基于所述层级 逻辑损失和所述 监督损失, 确定联合损失, 包括: 基于所述历史模态特征, 确定组合历史模态特征; 基于所述样本模态特征, 确定组合样 本模态特 征; 基于所述组合历史模态特征, 应用所述历史识别模型和所述初始识别模型, 确定第一 组合结果分布差异; 并基于所述组合样本模态特征, 应用所述历史识别模型和所述初始识 别模型, 确定第二组合结果分布差异; 基于所述第 一组合结果分布差异和所述第 二组合结果分布差异, 确定层级组合逻辑损 失; 基于所述层级逻辑损失、 所述层级组合逻辑损失和所述 监督损失, 确定所述联合损失。 4.根据权利要求3所述的视频识别模型增量训练方法, 其特征在于, 所述基于所述层级 逻辑损失、 所述层级组合逻辑损失和所述 监督损失, 确定所述联合损失, 包括: 基于所述初始识别模型中的特征融合网络, 应用所述历史模态特征, 确定第一历史融 合特征, 并基于所述第一历史融合特 征, 确定第一历史音视频 特征; 基于所述历史模态特征, 确定历史模态增强特征; 并基于所述第一历史音视频特征, 确 定第一历史音视频增强特 征; 基于所述初始识别模型, 应用所述历史模态增强特征, 确定第一增强结果分布, 并基于 所述第一增强结果分布和所述历史模态特 征对应的类别标签, 得到第一增强损失; 基于所述初始识别模型中的分类网络, 应用所述第一历史音视频增强特征, 确定第二 增强结果分布, 并基于所述第二增强结果分布和所述历史模态特征对应的类别标签, 得到 第二增强损失;权 利 要 求 书 1/3 页 2 CN 115457426 A 2基于所述第 一增强损失、 所述第 二增强损失、 所述层级逻辑损失、 所述层级组合逻辑损 失和所述 监督损失, 确定所述联合损失。 5.根据权利要求4所述的视频识别模型增量训练方法, 其特征在于, 所述基于所述联合 损失, 对所述初始识别模型参数进行迭代更新, 直至所述联合损失收敛, 得到所述当前识别 模型, 包括: 基于所述联合损 失, 对所述初始识别模型参数进行迭代更新, 并基于所述第一增强损 失, 对所述特征融合网络的参数进行迭代更新, 直至所述联合损失和所述第一增强损失同 时收敛, 得到所述当前识别模型。 6.根据权利要求4或5所述的视频识别模型增量训练方法, 其特征在于, 所述基于所述 第一增强损失、 所述第二增强损失、 所述层 级逻辑损失、 所述层级组合逻辑损失和所述监督 损失, 确定所述联合损失, 包括: 基于所述历史识别模型中的特征融合网络, 应用所述历史模态特征, 确定第二历史融 合特征; 并基于所述第二历史融合特征, 确定第二历史音视频特征; 并基于所述第二历史音 视频特征, 确定第二历史音视频增强特 征; 基于所述历史模态特 征和所述样本模态特 征, 确定当前全量模态特 征; 基于所述初始识别模型的特征融合网络, 应用所述当前全量模态特征, 确定第一当前 全量融合特 征, 并基于所述第一当前全量融合特 征, 确定所述第一当前全量音视频 特征; 基于所述历史识别模型的特征融合网络, 应用所述当前全量模态特征, 确定第二当前 全量融合特 征, 并基于所述第二当前全量融合特 征, 确定所述第二当前全量音视频 特征; 基于所述第 一历史音视频增强特征和所述第 一当前全量音视频特征之间的相似度, 以 及所述第二历史音视频增强特征和所述第二当前全量音视频特征之 间的相似度, 确定层级 视频损失; 基于所述第 一增强损失、 所述第 二增强损失、 所述层级逻辑损失、 所述层级组合逻辑损 失、 所述监督损失和所述层级视频损失, 确定所述联合损失。 7.根据权利要求6所述的视频识别模型增量训练方法, 其特征在于, 所述基于所述第 一 增强损失、 所述第二增强损失、 所述层级逻辑损失、 所述层级组合逻辑损失、 所述监督损失 和所述层级视频损失, 确定所述联合损失, 包括: 基于所述第 一历史融合特征中任一第 一融合特征, 确定所述任一第 一融合特征对应的 增强融合特征; 并基于所述第二历史融合特征中任一第二融合特征, 确定所述任一第二融 合特征对应的增强融合特 征; 基于所述任一第一融合特征对应的增强融合特征中的片段增强融合特征和所述任一 第一融合特征中的片段融合特征之 间的相似度, 以及所述任一第二融合特征对应的增强融 合特征中的片段增强融合特征和所述任一第二融合特征中的片段融合特征之间的相似度, 确定层级片段损失; 基于所述第 一增强损失、 所述第 二增强损失、 所述层级逻辑损失、 所述层级组合逻辑损 失、 所述监督损失、 所述层级视频损失和所述层级片段损失, 确定所述联合损失。 8.一种视频识别方法, 其特 征在于, 包括: 确定待识别视频的模态特 征; 将所述模态特征输入至视频识别模型中, 得到所述视频识别模型输出的结果分布, 并权 利 要 求 书 2/3 页 3 CN 115457426 A 3

PDF文档 专利 视频识别模型增量训练方法、视频识别方法及装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频识别模型增量训练方法、视频识别方法及装置 第 1 页 专利 视频识别模型增量训练方法、视频识别方法及装置 第 2 页 专利 视频识别模型增量训练方法、视频识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:28:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。