standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003468.0 (22)申请日 2022.01.04 (71)申请人 中国人民解 放军国防科技大 学 地址 210007 江苏省南京市秦淮区后标营 18号 (72)发明人 曹建军 曾志贤 翁年凤 袁震 江春 丁鲲 蒋国权 (74)专利代理 机构 江苏瑞途律师事务所 32346 代理人 计璐 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于数据增强的视觉语义嵌入方法及 系统 (57)摘要 本发明公开了一种基于数据增强的视觉语 义嵌入方法及系统, 属于深度学习技术领域。 利 用第一网络模型对图像进行目标识别选取若干 图像区域; 利用第二网络模型提取图像区域的细 粒度特征, 通过微调网络映射得到图像在共同嵌 入空间的细粒度表示; 进行第一语义图推理并进 行统一池化操作; 利用第一提取模 型提取文本上 下文相关的词向量表示; 利用第二提取模型进行 微调映射至共同嵌入空间, 得到文本在共同嵌入 空间中的词向量表示; 进行第二语义图推理并进 行统一池化操作; 对所述第一池化结果和第二池 化结果进行语义对齐, 并且在模 型的训练中对数 据进行增强。 本发明能够很好的构建模态内语义 关联和在共同嵌入子空间中生成统一表征。 权利要求书2页 说明书10页 附图3页 CN 114298057 A 2022.04.08 CN 114298057 A 1.一种基于数据增强的视 觉语义嵌入方法, 其特 征在于, 包括: 接收图像数据和文本数据; 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二 网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述图像细粒度特征映射 到共同嵌入空间, 得到图像在共同嵌入空间的细粒度表示; 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 对第一推理结果进行统一池化操作, 得到第一池化结果; 利用第一提取模型提取文本上下文相关的词向量表示; 利用第 二提取模型对文本上下 文相关的词向量表示进行微调映射至共同嵌入空间, 得到文本在共同嵌入空间中的词向量 表示; 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 对第二推理结果进行统一池化操作, 得到第二池化结果; 对所述第一池化结果和第二池化结果进行语义对齐; 所述第二网络模型、 第一提取模型和第二提取模型均利用数据增强后的数据进行训 练。 2.根据权利要求1所述的方法, 其特征在于, 所述第一网络模型为在Visual Genome数 据集中预训练的目标识别网络Faster R‑CNN。 3.根据权利 要求1所述的方法, 其特征在于, 所述第二网络模型为在ImageNet数据集中 预训练的Resnet101。 4.根据权利要求1所述的方法, 其特征在于, 所述微调网络为多层感知机连接一层全连 接网络。 5.根据权利要求1所述的方法, 其特征在于, 所述第一提取模型为BERT ‑Base‑Uncased 模型; 所述第二 提取模型为Bi ‑GRU网络模型。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述第一语义图推理的方法包 括: 构建第一全连接语义图, 以图片的细粒度特征向量表示作为节点, 节点间边的权重采 用节点间的相似度表示; 采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。 7.根据权利要求6所述的方法, 其特 征在于, 所述第一语义图推理的方法包括: 构建第二全连接语义图, 以词的向量表示作为节点, 节点间边的权重采用节点间的相 似度表示; 采用图卷积神经网络实现第二全连接语义图中节点之间的语义推理。 8.根据权利要求7所述的方法, 其特征在于, 所述第 一池化结果和第 二池化结果进行语 义对齐包括: 采用热启动的方式, 在训练的第一个epoc h采用一般跨模态三元组损失函数; 剩余的训练中采用难负 样本跨模态三元组损失函数。 9.根据权利要求8所述的方法, 其特征在于, 所述数据增强的方法包括图像数据增强和 文本数据增强; 所述图像数据增强包括: 每个图像区域都有一定的概率被一个固定的特征向量<mask>权 利 要 求 书 1/2 页 2 CN 114298057 A 2所替换, 并生成图像数据增强的细粒度特 征表示; 所述文本数据增强包括: 文本描述中的每 个单词都有一定的概 率替换为一个固定的非零特 征向量; 文本描述中的每 个单词都有一定的概 率被移除; 文本描述中的每 个单词都有一定的概 率被词典中的另一个单词替换。 10.一种基于数据增强的视觉语义嵌入系统, 根据权利要求1 ‑9任一项所述的基于数据 增强的视 觉语义嵌入方法进行视 觉语义嵌入, 其特 征在于, 包括: 数据接收单 元, 用于接收图像和文本数据; 图像特征获取单元, 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述 图像细粒度特 征映射到共同嵌入空间, 得到图像在共同嵌入空间的细粒度特 征表示; 第一图推理单 元, 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 第一池化单 元, 对第一推理结果进行统一池化操作, 得到第一池化结果; 文本特征提取单元, 利用第一提取模型提取文本上下文相关的词向量表示; 利用第二 提取模型对文本上下文相关的词向量表示进 行微调映射至共同嵌入空间, 得到文本在 共同 嵌入空间中的词向量表示; 第二图推理单 元, 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 第二池化单 元, 对第二推理结果进行统一池化操作, 得到第二池化结果; 语义对齐单 元, 对所述第一池化结果和第二池化结果进行语义对齐。权 利 要 求 书 2/2 页 3 CN 114298057 A 3
专利 一种基于数据增强的视觉语义嵌入方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:03
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
国家网络安全事件应急预案.pdf
YD-T 1721-2008 电信网和互联网灾难备份及恢复实施指南.pdf
GM-T 0114-2021 诱骗态BB84量子密钥分配产品检测规范.pdf
GB-T 37401-2019 电子商务平台服务保障技术要求.pdf
GB-T 6892-2015 一般工业用铝及铝合金挤压型材.pdf
GB-T 42755-2023 人工智能 面向机器学习的数据标注规程.pdf
GB-T 42277-2022 水泥胶砂碳化性试验方法.pdf
GB-T 34432-2017 售后服务基本术语.pdf
人工智能语言对话大模型合集.pdf
GM-T 0108-2021 诱骗态BB84量子密钥分配产品技术规范.pdf
GB-T 22652-2019 阀门密封面堆焊工艺评定.pdf
GB-T 39316.3-2020 军民通用资源 元数据 第3部分:器材类 航材.pdf
绿盟 软件供应链安全技术白皮书.pdf
GM-T 0031-2014 安全电子签章密码技术规范.pdf
LY-T 3241-2020 纤维板生产线节能技术规范.pdf
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
GB-T 22048-2022 玩具及儿童用品中特定邻苯二甲酸酯增塑剂的测定.pdf
GB-T 36273-2018 智能变电站继电保护和安全自动装置数字化接口技术规范.pdf
GB-T 34004-2017 家用和小型餐饮厨房用燃气报警器及传感器.pdf
GB-T 43748-2024 微束分析 透射电子显微术 集成电路芯片中功能薄膜层厚度的测定方法.pdf
1
/
16
评价文档
赞助2.5元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。