专利 视频拆分方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211277774.X (22)申请日 2022.10.19 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人冯鑫　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师杨欢 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) (54)发明名称视频拆分方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种视频拆分方法、装置、计算机设备和存储介质。所述方法包括：获取待处理视频中各目标视频片段对应的音频片段和台词文本；将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧；提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度；提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度；基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对待处理视频进行情节拆分，得到多个子视频。采用本方法能够对视频进行自动地情节划分。权利要求书4页说明书22页附图8页 CN 115359409 A 2022.11.18 CN 115359409 A 1.一种视频拆分方法，其特征在于，所述方法包括：获取待处理视频中各目标视频片段对应的音频片段和台词文本，其中，每个音频片段包括多个音频帧；将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧；提取每帧目标音频帧各自的特征表示，并根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度；提取每个目标视频片段对应的台词文本的特征表示，并根据相邻目标视频片段的台词文本的特征表示，确定相邻目标视频片段间的内容语义相关度；基于相邻目标视频片段间的人声语义相关度和内容语义相关度，对所述待处理视频进行情节拆分，得到多个子视频。 2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中各目标视频片段对应的音频片段和台词文本之前，所述方法还包括：确定所述待处理视频中的待处理的当前视频帧，所述当前视频帧为所述待处理视频中的任一视频帧；计算所述当前视频帧与在前视频帧之间的图像相似度，所述在前视频帧为时间顺序在所述当前视频帧之前的视频帧；当基于所述图像相似度确定满足视频分割条件时，以所述当前视频帧为分割界限，对所述待处理视频进行分割；将所述待处理视频帧在所述当前视频帧之后的在后视频帧，作为下次的当前视频帧，并返回至计算所述当前视频帧与在前视频帧之间的图像相似度的步骤继续执行，直至遍历完成全部视频帧后，得到分割而成的多个视频片段；基于分割得到的多个视频片段确定多个目标视频片段。 3.根据权利要求2所述的方法，其特征在于，所述基于分割得到的多个视频片段确定多个目标视频片段，包括：对分割得到的各视频片段分别进行人声识别，并将识别到人声的视频片段作为目标视频片段。 4.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中各目标视频片段对应的音频片段和台词文本，包括：对于每个目标视频片段，提取所述目标视频片段中的音频数据，得到对应于每个目标视频片段的音频片段；获取所述待处理视频对应的台词文本，并按照各个目标视频片段的时间信息，从所述待处理视频对应的台词文本中获取各目标视频片段所对应的台词文本。 5.根据权利要求1所述的方法，其特征在于，所述将各音频片段中属于人声的音频帧，作为相应音频片段中的目标音频帧，包括：获取各个音频片段的音频时域信号，对所述音频时域信号进行时域特征处理，得到时域特征，所述时域特征包括中间时域特征和目标时域特征；对所述各个音频片段的音频时域信号进行转换，得到各个音频片段的音频频域信号，并对所述音频频域信号进行频域特征处理，得到频域特征，所述频域特征包括中间频域特征和目标频域特征；权　利　要　求　书 1/4 页 2 CN 115359409 A 2基于所述中间时域特征和所述中间频域特征进行特征融合，得到目标融合特征；对于各音频片段，融合相对应的目标时域特征、目标频域特征、以及目标融合特征，得到各音频片段的音频特征；基于各个音频片段的音频特征识别得到各个音频片段中的目标音频帧，所述目标音频帧为所述音频片段中包含人声的音频帧。 6.根据权利要求5所述的方法，其特征在于，所述中间时域特征的数量为多个，每个中间时域特征对应一个特征提取阶段；所述中间频域特征的数量为多个，每个中间频域特征对应一个特征提取阶段；所述基于所述中间时域特征和所述中间频域特征进行特征融合，得到目标融合特征，包括：对于当前的特征提取阶段，获取与前次的特征提取阶段对应的中间融合特征，其中，当前的特征提取阶段为除首次外的任一次特征提取阶段；将所述中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，当前的特征提取阶段对应的中间融合特征用于参与到下一次的特征融合过程中；获取最后一个特征提取阶段所对应的中间融合特征，作为目标融合特征。 7.根据权利要求6所述的方法，其特征在于，所述将所述中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合，得到与当前的特征提取阶段对应的中间融合特征，包括：调整当前的特征提取阶段所对应的中间时域特征的特征维度，以使当前的特征提取阶段所对应的中间时域特征与中间频域特征的特征维度一致；将前次特征提取阶段所获得的中间融合特征、以及维度一致的中间时域特征和中间频域特征进行叠加，得到当前的特征提取阶段的中间融合特征。 8.根据权利要求1所述的方法，其特征在于，所述根据相邻音频片段中的目标音频帧的特征表示，确定相邻目标视频片段间的人声语义相关度，包括：根据相邻音频片段中目标音频帧的特征表示，确定属于其中一个音频片段的任一目标音频帧分别与属于另一个音频片段的任一目标音频帧之间的帧相关度；基于多个帧相关度从音频帧对中筛选出多组代表音频帧对，所述音频帧对由一个音频片段的任一目标音频帧与另一个音频片段的任一目标音频帧组成；基于所述代表音频帧对的帧相关度，确定所述相邻目标视频片段间的人声语义相关度。 9.根据权利要求1所述的方法，其特征在于，所述提取每个目标视频片段对应的台词文本的特征表示，包括：对于各目标视频片段，对所述目标视频片段的台词文本进行重编码处理，得到台词文本中每个词对应的特征表示；按照第一顺序对所述台词文本中每个词对应的特征表示进行线性变化，得到第一顺序下的特征表示序列；按照第二顺序对所述台词文本中每个词对应的特征表示进行线性变化，得到第二顺序下的特征表示序列，其中，所述第一顺序与所述第二顺序相反；权　利　要　求　书 2/4 页 3 CN 115359409 A 3

专利 视频拆分方法、装置、计算机设备和存储介质

专利视频拆分方法、装置、计算机设备和存储介质