说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210003468.0 (22)申请日 2022.01.04 (71)申请人 中国人民解 放军国防科技大 学 地址 210007 江苏省南京市秦淮区后标营 18号 (72)发明人 曹建军 曾志贤 翁年凤 袁震 江春 丁鲲 蒋国权 (74)专利代理 机构 江苏瑞途律师事务所 32346 代理人 计璐 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于数据增强的视觉语义嵌入方法及 系统 (57)摘要 本发明公开了一种基于数据增强的视觉语 义嵌入方法及系统, 属于深度学习技术领域。 利 用第一网络模型对图像进行目标识别选取若干 图像区域; 利用第二网络模型提取图像区域的细 粒度特征, 通过微调网络映射得到图像在共同嵌 入空间的细粒度表示; 进行第一语义图推理并进 行统一池化操作; 利用第一提取模 型提取文本上 下文相关的词向量表示; 利用第二提取模型进行 微调映射至共同嵌入空间, 得到文本在共同嵌入 空间中的词向量表示; 进行第二语义图推理并进 行统一池化操作; 对所述第一池化结果和第二池 化结果进行语义对齐, 并且在模 型的训练中对数 据进行增强。 本发明能够很好的构建模态内语义 关联和在共同嵌入子空间中生成统一表征。 权利要求书2页 说明书10页 附图3页 CN 114298057 A 2022.04.08 CN 114298057 A 1.一种基于数据增强的视 觉语义嵌入方法, 其特 征在于, 包括: 接收图像数据和文本数据; 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二 网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述图像细粒度特征映射 到共同嵌入空间, 得到图像在共同嵌入空间的细粒度表示; 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 对第一推理结果进行统一池化操作, 得到第一池化结果; 利用第一提取模型提取文本上下文相关的词向量表示; 利用第 二提取模型对文本上下 文相关的词向量表示进行微调映射至共同嵌入空间, 得到文本在共同嵌入空间中的词向量 表示; 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 对第二推理结果进行统一池化操作, 得到第二池化结果; 对所述第一池化结果和第二池化结果进行语义对齐; 所述第二网络模型、 第一提取模型和第二提取模型均利用数据增强后的数据进行训 练。 2.根据权利要求1所述的方法, 其特征在于, 所述第一网络模型为在Visual Genome数 据集中预训练的目标识别网络Faster R‑CNN。 3.根据权利 要求1所述的方法, 其特征在于, 所述第二网络模型为在ImageNet数据集中 预训练的Resnet101。 4.根据权利要求1所述的方法, 其特征在于, 所述微调网络为多层感知机连接一层全连 接网络。 5.根据权利要求1所述的方法, 其特征在于, 所述第一提取模型为BERT ‑Base‑Uncased 模型; 所述第二 提取模型为Bi ‑GRU网络模型。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述第一语义图推理的方法包 括: 构建第一全连接语义图, 以图片的细粒度特征向量表示作为节点, 节点间边的权重采 用节点间的相似度表示; 采用图卷积神经网络实现第一全连接语义图中节点之间的语义推理。 7.根据权利要求6所述的方法, 其特 征在于, 所述第一语义图推理的方法包括: 构建第二全连接语义图, 以词的向量表示作为节点, 节点间边的权重采用节点间的相 似度表示; 采用图卷积神经网络实现第二全连接语义图中节点之间的语义推理。 8.根据权利要求7所述的方法, 其特征在于, 所述第 一池化结果和第 二池化结果进行语 义对齐包括: 采用热启动的方式, 在训练的第一个epoc h采用一般跨模态三元组损失函数; 剩余的训练中采用难负 样本跨模态三元组损失函数。 9.根据权利要求8所述的方法, 其特征在于, 所述数据增强的方法包括图像数据增强和 文本数据增强; 所述图像数据增强包括: 每个图像区域都有一定的概率被一个固定的特征向量<mask>权 利 要 求 书 1/2 页 2 CN 114298057 A 2所替换, 并生成图像数据增强的细粒度特 征表示; 所述文本数据增强包括: 文本描述中的每 个单词都有一定的概 率替换为一个固定的非零特 征向量; 文本描述中的每 个单词都有一定的概 率被移除; 文本描述中的每 个单词都有一定的概 率被词典中的另一个单词替换。 10.一种基于数据增强的视觉语义嵌入系统, 根据权利要求1 ‑9任一项所述的基于数据 增强的视 觉语义嵌入方法进行视 觉语义嵌入, 其特 征在于, 包括: 数据接收单 元, 用于接收图像和文本数据; 图像特征获取单元, 利用第一网络模型对图像进行目标识别, 并根据置信度选取若干 图像区域; 利用第二网络模型提取每个所述图像区域的细粒度特征, 通过微调网络将所述 图像细粒度特 征映射到共同嵌入空间, 得到图像在共同嵌入空间的细粒度特 征表示; 第一图推理单 元, 根据所述细粒度表示进行第一语义图推理, 获得第一推理结果; 第一池化单 元, 对第一推理结果进行统一池化操作, 得到第一池化结果; 文本特征提取单元, 利用第一提取模型提取文本上下文相关的词向量表示; 利用第二 提取模型对文本上下文相关的词向量表示进 行微调映射至共同嵌入空间, 得到文本在 共同 嵌入空间中的词向量表示; 第二图推理单 元, 根据所述词向量表示进行第二语义图推理, 获得第二推理结果; 第二池化单 元, 对第二推理结果进行统一池化操作, 得到第二池化结果; 语义对齐单 元, 对所述第一池化结果和第二池化结果进行语义对齐。权 利 要 求 书 2/2 页 3 CN 114298057 A 3
专利 一种基于数据增强的视觉语义嵌入方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:03
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GM-T 0055-2018 电子文件密码应用技术规范.pdf
GB-T 29246-2022 信息安全技术 信息安全管理体系 概述和词汇 征求意见稿.pdf
GB-T 22696.1-2008 电气设备的安全 风险评估和风险降低 第1部分:总则.pdf
DB35-T 1344-2013 橄榄丰产栽培技术规范 福建省.pdf
GB-T 12452-2022 水平衡测试通则.pdf
GB-T 41619-2022 科学技术研究项目评价实施指南 基础研究项目.pdf
GB-T 32932-2016 留学中介服务规范.pdf
GB-T 18018-2019 信息安全技术 路由器安全技术要求.pdf
GB-Z 29830.1-2013 信息技术 安全技术 信息技术安全保障框架 第1部分:综述和框架.pdf
GM-T 0030-2014 服务器密码机技术规范.pdf
GA 1800.4-2021 电力系统治安反恐防范要求 第4部分:风力发电企业.pdf
GB-T 43334-2023 独立型微电网能量管理系统技术要求.pdf
DB4403-T 114-2020 公共信用信息资源目录规范 深圳市.pdf
GB-T 43541-2023 智能制造 网络协同制造 业务架构与信息模型.pdf
GB-T 22264.5-2008 安装式数字显示电测量仪表 第5部分:相位表和功率因数表的特殊要求.pdf
NB-T 31042-2019 海上永磁风力发电机变流器技术规范.pdf
OpenGroup 在TOGAF企业架构中集成风险和安全 .pdf
GB-Z 25425-2010 风力发电机组 公称视在声功率级和音值.pdf
GB-T 32169.1-2015 政务服务中心运行规范 第1部分:基本要求.pdf
专利 数据安全的管控方法及装置、电子设备、存储介质.PDF
交流群
-->
1
/
16
评价文档
赞助2元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。