(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211017238.6
(22)申请日 2022.08.23
(71)申请人 湖南文盾信息技 术有限公司
地址 410005 湖南省长 沙市开福区芙蓉北
路街道金马路377号福天兴业大楼综
合楼301房
(72)发明人 任江春
(74)专利代理 机构 长沙七源专利代理事务所
(普通合伙) 43214
专利代理师 邹琦 张勇
(51)Int.Cl.
G06Q 10/10(2012.01)
G06F 16/43(2019.01)
G06N 20/00(2019.01)
G06F 40/126(2020.01)G06F 40/205(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06V 10/26(2022.01)
G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
多媒体数据审核系统、 审核方法、 终端及计
算机存储介质
(57)摘要
本发明公开一种多媒体数据审核系统、 审核
方法、 终端及计算机存储介质, 多媒体数据审核
系统包括流量采集模块、 流量还原模块、 特征提
取模块以及智能审核模块; 流量采集模块用于收
集被审核平台中与多媒体内容相关的网络流量,
获得采集的流量; 流量还原模块用于对采集的流
量进行分析, 找出网络流量中所传输的实际多媒
体内容, 并且按照格式将多媒体数据保存下来,
得到捕获的多媒体数据; 特征提取模块用于从捕
获的多媒体数据中提取特征; 智能审核模块用于
对多媒体内容进行审核判断是否存在违规内容。
该技术从如何获取多媒体数据和如何提高审核
效率两个方面实现突破, 能够 有效支撑各主体对
多媒体业务的高效审核, 保证发布内容的规范性
和安全性。
权利要求书3页 说明书7页 附图2页
CN 115392861 A
2022.11.25
CN 115392861 A
1.一种多媒体数据审核系统, 其特征在于, 包括流量采集模块、 流量还原模块、 特征提
取模块以及智能审核模块;
流量采集模块用于收集被审核平台中与多媒体内容相关的网络流量, 获得采集的流
量;
流量还原模块用于对采集的流量进行分析, 找出网络流量中所传输的实际多媒体内
容, 并且按照格式将多媒体数据保存下来, 得到捕获的多媒体数据;
特征提取模块用于从捕获的多媒体数据中提取 特征;
智能审核模块用于对多媒体内容进行审核判断是否存在违规内容。
2.根据权利要求1所述的多媒体数据审核系统, 其特征在于, 所述流量采集模块包括部
署在业务平台的多个流量采集探针; 捕获的多媒体数据包括文字、 图片、 音频及视频中的至
少一种。
3.一种多媒体数据的审核方法, 其特 征在于, 包括以下步骤:
步骤S1、 多媒体流 量采集;
步骤S2、 还原多媒体数据;
步骤S3、 提取多媒体数据特征, 具体是: 从多媒体数据中提取文本特征、 音频特征及视
频特征获得用于内容审核的多媒体数据;
提取文本特征具体操作是: 基于常用的文本语义模型对文本内容进行编码, 生成用于
表达文本主题的向量表示; 基于卷积神经网络从文本的向量表示中提取文本特 征;
提取音频特征具体操作是: 对音频文件进行编码处理, 得到音频的向量表示; 利用神经
网络提取音频的特 征, 得到具有语义信息的特 征向量;
提取视频特征具体操作是: 对视频内容进行镜头分割, 得到由多个镜头组成的镜头序
列; 利用3D卷积神经网络对镜头序列进 行特征提取, 得到视频语义特征, 该特征为用于表 示
视频内容的特 征向量;
步骤S4、 训练智能审核模型, 具体是: 根据用于内容审核的多媒体数据获取多媒体数据
片段; 对多媒体数据片段进行标注得到标注样 本; 获取每个标注样本 关于文本特征、 音频特
征和视频特征 的三个模态的语义特征; 利用加权的方式将多个模态语义特征加权融合, 得
到每个多媒体数据片段的全局性语义特征; 基于深度神经网络训练用于多媒体内容审核的
多媒体内容 安全审核模型;
步骤S5、 审核多媒体内容, 具体是: 将待审核多媒体数据划分成片段, 将划分好的片段
输入到多媒体内容 安全审核模型中, 得到该多媒体片段的分类结果。
4.根据权利要求3所述的审核方法, 其特 征在于, 步骤S2包括:
步骤S2.1、 判断多媒体数据传输采用的应用层协议类型, 如果是http协议则转入步骤
S2.3, 如果是ht tps协议则执 行步骤S2.2;
步骤S2.2、 获取当前网络流的TLS协议会话密钥, 对网络数据中的加密内容进行解密;
步骤S2.3、 对网络数据包头部消息域进行分析, 判断当前数据包是否存在消息体, 如果
存在则转入步骤S2.4, 如果 不存在则转入步骤S2.1开始新的数据包的分析;
步骤S2.4、 对消息体中的内容按照会话进行重组, 把属于 同一会话的消息内容按照一
定的顺序放在一起, 然后依据消息传输编码对内容进行解析, 并按照对应的多媒体格式进
行存储。权 利 要 求 书 1/3 页
2
CN 115392861 A
25.根据权利要求 4所述的审核方法, 其特 征在于, 步骤S3包括:
步骤S3.1、 文本特征的提取, 具体是: 从多媒体数据中提取文本信息, 这里的文本信息
包括字幕和弹幕内容, 保存为非结构化文本; 基于常用的文本语义模型GoogleNews对文本
内容进行编码, 生成用于表达文本主题的向量表示, 每个句子的用一个二维向量
表示,
其中: d为每个单词的向量 维度, n为每个句子中的单词个数; 基于卷积神经网络从文本的向
量表示中提取 特征, 该特征为向量形式;
步骤S3.2、 音频特征的提取, 具体是: 从多媒体数据中提取音频信息, 并保存为特定音
频格式文件, 例如wav格式; 对音频文件进行编码处理, 得到音 频的向量表 示; 利用神经网络
提取音频的特 征, 得到具有语义信息的特 征向量;
步骤S3.3、 视频特征的提取, 具体是: 从多媒体文件中提取视频信息, 并保存为特定的
视频格式文件; 对视频内容进 行镜头分割, 得到由多个镜头组成的镜头序列; 利用3D卷积神
经网络对镜头序列进行特征提取, 得到视频语义特征, 该特征为用于表示视频内容的特征
向量。
6.根据权利要求5所述的审核方法, 其特征在于, 步骤S3.2中对音频文件进行编码处理
具体包括以下步骤: ①、 进行声音信号预加重处理, 消除噪音对高频声音信号的影响; ②、 将
音频信号按时间划分为固定长度的帧; ③、 通过加窗处理消除信号帧两端的不连续性; ④、
进行快速傅里叶变化得到声音信号的功 率谱;⑤、 基于人耳听觉特性, 用一组三角带通滤波
器对信号进行滤波得到各个频率区间的频谱能量; ⑥、 利用离散余弦变换将上述特征转化
为线性特 征。
7.根据权利要求6所述的审核方法, 其特 征在于, 步骤S4包括以下步骤:
步骤S4.1、 获取用于内容审核的多媒体数据, 按照固定长度对多媒体数据进行分割, 得
到多媒体数据片段;
步骤S4.2、 利用人工审核的方式为多媒体数据片段进行标注相应的标签, 得到标注样
本; 标签包括 合规、 涉黄、 涉恐、 涉政、 涉军五类;
步骤S4.3、 获取每个标注样本的三个模态的语义特征, 即文本特征、 音频特征和视频特
征, 每一种特 征用相应的特 征向量来表示;
步骤S4.4、 利用加权的方式将多个模态语义特征加权融合, 得到每个多媒体数据片段
的全局性语义特征V, 即V=w1*v1+w2*v2+(1‑w1‑w2)*v3, 其中: v1、 v2、 v3分别是三个模态的特
征向量, w1、 w2为相应的权 重值;
步骤S4.5、 基于深度神经网络训练用于多媒体内容审核的模型;
步骤S4.6、 按照固定的步长调整多模态融合的权重参数w1和w2; 重复步骤S4.5的训练过
程, 得到新的多媒体内容 安全审核模型;
步骤S4.7、 以准确率、 召回率和F1值作为评测指标, 比较步骤S4.5和步骤S4.6中两个审
核模型的性能, 保留性能较高的审核模型;
步骤S4.8、 重复步骤S4.5至步骤S4.7, 使得多模态融合的权重参数w1和w2遍历其取值区
间内的值, 得到最终的多媒体内容 安全审核模型。
8.根据权利要求7所述的审核方法, 其特征在于, 所述深度神经网络包括输入层、 隐藏
层和输出层, 具体的训练过程包括:
步骤①、 将标注样本输入到初始 的审核模型, 经过神经网络各层的计算后得到分类的权 利 要 求 书 2/3 页
3
CN 115392861 A
3
专利 多媒体数据审核系统、审核方法、终端及计算机存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:48上传分享