(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210663392.4
(22)申请日 2022.06.13
(71)申请人 乐知未来科技 (深圳) 有限公司
地址 518129 广东省深圳市龙岗区坂田街
道社区黄军山综合楼801-826
(72)发明人 刘怀亮 傅子强 赵舰波 杨斌
(74)专利代理 机构 西安嘉思特知识产权代理事
务所(普通 合伙) 6123 0
专利代理师 辛菲
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的短视频去重方法
(57)摘要
本发明公开了一种基于深度学习的短视频
去重方法, 包括: 对待比较的目标视频和询问视
频进行预处理, 分别获得所述目标视频和所述询
问视频的张量表示; 利用预训练的神经网络分别
获得所述目标视频和所述询问视频的时空特征
向量; 构造进行视频特征相似度判别的神经网络
模型并对所述神经网络模型进行训练; 将所述目
标视频和所述询问视频的时空特征向量输入经
训练的神经网络模型中获得所述目标视频和所
述询问视频的相似度值; 利用所述相似度值判断
是否删除所述目标视频和所述询问视频。 本发明
针对短视频去重、 存储和管 理的情形运用视频理
解的算法计算视频重复度, 解决了针对视频内容
重复的短视频检测问题, 收敛快, 效率高。
权利要求书3页 说明书9页 附图4页
CN 114973098 A
2022.08.30
CN 114973098 A
1.一种基于深度学习的短视频去重方法, 其特 征在于, 包括:
对待比较的目标视频和询问视频进行预处理, 分别获得所述目标视频和所述询问视频
的张量表示;
利用预训练的神经网络分别获得 所述目标视频和所述询问视频的时空特 征向量;
构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练, 所述
神经网络模型包括权重层、 融合模块以及2D卷积神经网络模块, 其中, 所述权重层用于对所
述目标视频和所述询问视频的时空特征向量分别进行加权, 分别获得所述目标视频和所述
询问视频的加权后时空特征向量, 所述融合模块用于对所述目标视频和所述询问视频的加
权后时空特征向量进行特征融合, 获得融合后时空特征向量; 所述2D卷积神经网络模块用
于根据所述融合后时空特 征向量获得 所述目标视频和所述询问视频的相似度值;
将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得
所述目标视频和所述询问视频的相似度值;
利用所述相似度值判断是否删除所述目标视频和所述询问视频。
2.根据权利要求1所述的基于深度学习的短视频去重方法, 其特征在于, 对待比较的目
标视频和询问视频并进行预处理, 分别获得所述 目标视频和所述询问视频的张量表示, 包
括:
对所述目标视频在时间维度 上均匀提取多帧图像, 去除所述多帧图像中相邻且结构相
似的冗余图像, 获得去除冗余图像后的多帧图像;
删除所述多帧图像中模糊度超过设定模糊度阈值的图像, 获得去除模糊帧后的多帧剩
余图像;
根据所述多帧剩余图像获得目标视频的张量表示;
依据所述目标视频的预处理过程对所述询问视频进行预处理, 获得所述询问视频的张
量表示。
3.根据权利要求2所述的基于深度学习的短视频去重方法, 其特征在于, 去除所述多帧
图像中相邻且结构相似的冗余图像, 包括:
分别获得相邻帧图像的亮度相似度、 对比度相似度以及结构相似度:
其中, l(x,y)、 c(x,y)和s(x,y)分别 表示相邻两张灰度图在当前窗口下的亮度、 对比度
和结构之间的相似度, x和y为相邻帧图像灰度化后当前N ×N窗口下各自的像素点集合, μx
为当前窗口中所有像素点x轴坐标的均值, μy为当前窗口中所有像素点y轴坐标的均值,
为当前窗口中所有像 素点x轴坐标的方差,
为当前窗口中所有像 素点y轴坐标的方差, σxy
为当前窗口中所有像素点x轴坐标和y轴坐标的协方差, c1、 c2和c3为常数;
获得相邻帧图像之间的总相似度值:
SSIM(x,y)=[l(x,y)α·c(x,y)β·s(x,y)γ],
其中, α 、 β 、 γ为设定的常数;
将相邻帧图像之间的总相似度值与设定的相似度阈值进行比较, 若所述总相似度值大权 利 要 求 书 1/3 页
2
CN 114973098 A
2于设定的相似度阈值, 则随机删除所述相邻帧图像中的一帧图像, 对所述 目标视频多帧图
像的相邻帧图像两两进行比较, 直到剩下所有相 邻帧图像之间的总相似度值均小于所述相
似度阈值。
4.根据权利要求2所述的基于深度学习的短视频去重方法, 其特征在于, 利用预训练 的
神经网络分别获得 所述目标视频和所述询问视频的时空特 征向量, 包括:
将所述目标视频或询问视频中的预处理后的多帧图像分别输入预训练的Vision
Transformer网络中得到每张图像的空间特征向量, 随后将所述空间特征向量融合位置编
码输入预训练Video transformer 网络的时序特征编码器中, 得到所述目标视频或所述询
问视频的时空特 征向量。
5.根据权利要求1所述的基于深度学习的短视频去重方法, 其特征在于, 所述2D卷积神
经网络包括依 次连接的复制填充层、 第一二维卷积层、 复制填充层、 第二二维卷积层、 复制
填充层、 第三 二维卷积层以及第四二维卷积层, 其中,
每个复制填充层均用于对输入矩阵的四周填充一圈数值;
所述第一二维卷积层、 所述第二二维卷积层和所述第三二维卷积层的激活函数为
relu, 均采用最大池化, 所述第四二维卷积层利用softmax层输出一个相似度矩阵。
6.根据权利要求1所述的基于深度学习的短视频去重方法, 其特征在于, 对所述神经网
络模型进行训练, 包括:
构建训练数据集, 其中, 所述训练数据集包括多个视频三元组, 每个视频三元组包括锚
点视频、 与锚点视频内容相似的正视频以及与锚点视频内容 不相似的负视频;
对所述视频三元组中的每 个视频进行 预处理, 获得预处理后每个视频的张量表示;
利用预训练的神经网络分别获得所述锚点视频、 所述正视频和所述负视频的时空特征
向量;
对所述锚点视频、 所述正视频和所述负视频的时空特征向量分别进行加权, 获得所述
锚点视频、 所述 正视频和所述负视频的加权后时空特 征向量;
对所述锚定视频和所述正视频的加权后 时空特征向量进行融合, 获得第一联合矩阵,
对所述锚定 视频和所述负视频的加权后时空特 征向量进行融合, 获得第二联合矩阵;
将所述第一联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述正视频的
相似度值, 将所述第二联合矩阵输入所述2D卷积神经网络中获得所述锚定视频和所述负视
频的相似度值, 并利用损失函数L=Sima,n‑Sima,p更新所述权重层和所述2D卷积神经网络模
块的参数, 其中, Sima,n表示锚点视频与负视频的相似度值, Sima,p表示锚点视频与正视频的
相似度值;
利用所述训练数据集中的视频三元组对所述权重层和所述2D卷积神经网络模块进行
迭代训练和更新, 获得训练后的神经网络模型。
7.根据权利要求1所述的基于深度学习的短视频去重方法, 其特征在于, 将所述目标视
频和所述询问视频 的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所
述询问视频的相似度值, 包括:
利用所述权重层对所述目标视频和所述询问视频的时空特征向量分别进行加权, 获得
所述目标视频 的加权后时空特征向量和所述询问视频 的加权后时空特征向量并进行特征
融合;权 利 要 求 书 2/3 页
3
CN 114973098 A
3
专利 一种基于深度学习的短视频去重方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:59上传分享