(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210573569.1
(22)申请日 2022.05.25
(65)同一申请的已公布的文献号
申请公布号 CN 114677650 A
(43)申请公布日 2022.06.28
(73)专利权人 武汉卓鹰世纪科技有限公司
地址 430000 湖北省武汉市武昌区菩提金
大厦B座8楼 26室
(72)发明人 黄鑫 胡明 雷新 何光荣
(74)专利代理 机构 北京集智东方知识产权代理
有限公司 1 1578
专利代理师 吴倩 龚建蓉
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 20/40(2022.01)G06V 40/20(2022.01)
G10L 25/57(2013.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 姜蝶
(54)发明名称
地铁乘客行人违法行为智能分析方法及装
置
(57)摘要
本发明涉及人工智能领域, 揭露了一种地铁
乘客行人违法行为智能分析方法及装置, 包括:
获取地铁中公共区域摄像头的监控影像, 并提取
监控影像中的音频, 得到监控音频; 对监控音频
进行音量监测及语义识别, 并根据监测结果或识
别结果对预设语音行为库中的语音行为进行筛
选, 得到目标语音行为集; 对监控影像中的视频
帧进行筛选, 得到多个分帧图像; 利用 深度学习
模型识别每个 分帧图像中的动作行为, 得到目标
违法行为集; 利用目标违 法行为集对 预设提醒语
音库中的提醒语音进行筛选组合, 得到目标提醒
语音将目标提醒语音发送至摄像头以使摄像头
播放目标提醒语音。 本发明提高地铁乘客行人的
违法行为识别分析的准确率。
权利要求书3页 说明书11页 附图3页
CN 114677650 B
2022.09.09
CN 114677650 B
1.一种地铁乘客行 人违法行为智能分析 方法, 其特 征在于, 所述方法包括:
获取地铁中公共区域摄像头预设时间区间的监控影像, 并提取所述监控影像中的音
频, 得到监控音频;
对所述监控音频进行音量监测及语义识别, 并根据监测结果或识别结果对预设语音行
为库中的语音行为进行筛 选, 得到目标语音行为 集;
对所述监控影像中的视频帧进行筛 选, 得到多个分帧图像;
利用训练完成的VG G模型对所述分帧图像进行 特征提取, 得到图像特 征向量;
根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组
合, 得到图像特 征矩阵;
利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权
计算, 得到图像加权特 征矩阵, 其中, 所述注意力机制函数为:
其中,
为所述图像特征矩阵位置顺序为
的图像特征向量;
为所述图像特征矩阵中
图像特征 向量的位置顺序, N为所述图像特征向量的总数量;
是多层感知机,
为所述图
像特征矩阵位置顺序为
的图像特征向量输入多层感知机后输出的结果, r为图像加权特征
矩阵;
对所述图像加权特 征矩阵进行降维操作, 得到目标 特征向量;
利用softmax函数对所述目标特征向量进行计算, 得到不同预设动作行为的识别概率,
并将识别概 率最高的所述动作行为确定为目标动作行为;
利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为
进行筛选, 得到目标违法行为 集;
基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语
音库中的提醒语音 进行筛选组合, 得到目标提醒语音;
将所述目标提醒语音发送至所述摄 像头以使所述摄 像头播放所述目标提醒语音;
所述对所述监控音频进行音量监测及语义识别, 并根据监测结果或识别结果对预设语
音行为库中的语音行为进行筛 选, 得到目标语音行为 集, 包括:
计算所述 监控音频中音量超过 预设音量阈值的音频时长;
判断所述音频时长是否超过 预设时长阈值, 得到判断结果;
将所述监控音频转 化为文本格式, 得到监控文本;
对所述监控文本进行意图识别, 得到文本意图;
将所述判断结果或所述文本意图作为筛选条件以筛选预设语音行为库中的语音行为,
得到所述目标语音行为 集;
所述利用训练完成的VGG模型对所述分帧图像进行特征提取, 得到图像特征向量, 包
括:
将所述分帧图像输入所述VGG模型, 并获取所述VGG模型中最后一层全连接层中每个节权 利 要 求 书 1/3 页
2
CN 114677650 B
2点的节点输出值;
将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合, 得
到所述图像特 征向量;
所述利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法
行为进行筛 选, 得到目标违法行为 集, 包括:
将所述目标语音行为 集与所有所述目标动作行为进行去重汇总, 得到乘客行为 集;
将所述乘客行为 集与所述违法行为 集进行交集 运算, 得到目标违法行为 集;
所述基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提
醒语音库中的提醒语音 进行筛选组合, 得到目标提醒语音, 包括:
基于预设的违法行为与提醒语音的映射关系查询所述目标违法行为集中每种 违法行
为在所述 提醒语音库中对应的提醒语音, 得到违法提醒语音;
将所有所述违法提醒语音封装为 一个音频文件, 得到所述目标提醒语音。
2.如权利要求1所述的地铁乘客行人违法行为智能分析方法, 其特征在于, 所述利用训
练完成的VG G模型对所述分帧图像进行 特征提取, 得到图像特 征向量, 包括:
对所述分帧图像中的人体姿态 识别, 得到人体姿态图像;
将人体姿态图像输入所述VGG模型, 并获取所述VGG模型中最后一层全连接层中每个节
点的节点输出值;
将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合, 得
到所述图像特 征向量。
3.如权利要求1所述的地铁乘客行人违法行为智能分析方法, 其特征在于, 所述根据 所
述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进 行组合, 得到图像
特征矩阵, 包括:
根据所述分帧图像在所述监控影像中的先后顺序将所述分帧图像对应的所述图像特
征向量作为矩阵列数据依次填充至预设的空白矩阵, 得到所述图像特 征矩阵。
4.如权利要求1所述的地铁乘客行人违法行为智能分析方法, 其特征在于, 所述对所述
图像加权特 征矩阵进行降维操作, 得到所述目标 特征向量, 包括:
利用预设的降维卷积核对所述图像加权特 征矩阵进行 卷积, 得到降维图像矩阵;
保留所述降维图像矩阵中每一列元 素的最大值, 得到目标 特征向量。
5.如权利要求1所述的地铁乘客行人违法行为智能分析方法, 其特征在于, 所述对所述
图像加权特 征矩阵进行降维操作, 得到所述目标 特征向量, 包括:
选取所述图像加权特 征矩阵中每一列所有元 素的平均值作为该列的列特 征值;
将所有所述列特征值根据所述列特征值在所述图像加权特征矩阵对应的列的先后顺
序进行组合, 得到所述目标 特征向量。
6.用于实现如权利要求1 ‑5任一项所述方法的一种地铁乘客行人违法行为智能分析装
置, 其特征在于, 所述装置包括:
语音行为识别模块, 用于获取地铁中公共区域摄像头预设时间区间的监控影像, 并提
取所述监控影像中的音 频, 得到监控音频; 对所述监控音频进 行音量监测及语义识别, 并根
据监测结果或识别结果对预设语音行为库中的语音行为进行筛 选, 得到目标语音行为 集;
动作行为识别模块, 用于对所述监控影像中的视频帧进行筛选, 得到多个分帧图像; 利权 利 要 求 书 2/3 页
3
CN 114677650 B
3
专利 地铁乘客行人违法行为智能分析方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:01:32上传分享