iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211068333.9 (22)申请日 2022.09.02 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 李仁刚 张润泽 赵雅倩 郭振华 范宝余 李晓川 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 刘颖 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/583(2019.01)G06F 40/126(2020.01) G06F 40/30(2020.01) G06V 30/41(2022.01) G06V 30/19(2022.01) (54)发明名称 一种视觉问答任务的处理方法、 装置、 设备 和介质 (57)摘要 本申请涉及图像处理技术领域, 公开了一种 视觉问答任务的处理方法、 装置、 设备和介质, 对 待分析图像和第一文本进行特征融合处理, 得到 融合特征; 融合特征包含各检测框的坐标信息。 依据待分析图像与第一文本的相关性, 从融合特 征中筛选 出满足相关性要求的目标检测框; 将目 标检测框对应的坐标信息、 分类类别和语义特征 输入训练好的视觉问答模型, 以得到与第一文本 匹配的第二文本; 其中, 第一文本与第二文本具 有逻辑对应关系。 通过对待分析图像和第一文本 进行特征融合处理, 可以实现对待分析图像和第 一文本的综合分析。 基于相关性对检测框进行删 减, 有效的降低了无效检测框造成的干扰, 减少 了视觉问答模 型的计算量, 提升了视觉问答任务 的性能。 权利要求书3页 说明书16页 附图5页 CN 115129848 A 2022.09.30 CN 115129848 A 1.一种视 觉问答任务的处 理方法, 其特 征在于, 包括: 对待分析图像和第一文本进行特征融合处理, 得到 融合特征; 其中, 所述融合特征包含 各检测框的坐标信息; 依据所述待分析图像与所述第 一文本的相关性, 从所述融合特征中筛选出满足相关性 要求的目标检测框; 将所述目标检测框对应的坐标信息、 分类类别和语义特征输入训练好的视觉问答模 型, 以得到与所述第一文本匹配的第二文本; 其中, 所述第一文本与所述第二文本具有逻辑 对应关系。 2.根据权利要求1所述的视觉问答任务的处理方法, 其特征在于, 所述依据所述待分析 图像与所述第一文本的相关性, 从所述融合特征中筛选出满足相关性要求的目标检测框包 括: 计算所述待分析图像的图像特征中包含的各图像检测框与所述第一文本的文本特征 对应的文本检测框的交并比; 从所有所述图像 检测框中选取 出交并比大于预设阈值的目标检测框 。 3.根据权利要求1所述的视觉问答任务的处理方法, 其特征在于, 所述依据所述待分析 图像与所述第一文本的相关性, 从所述融合特征中筛选出满足相关性要求的目标检测框包 括: 利用训练好的目标检测模型从所述融合特征中筛选出满足相关性要求的目标检测框; 其中, 所述目标检测模型基于历史图像和历史文本训练得到 。 4.根据权利要求3所述的视觉问答任务的处理方法, 其特征在于, 针对于所述目标检测 模型的训练过程, 所述方法包括: 利用目标检测数据集训练初始检测模型, 以得到所述初始检测模型对应的权 重参数; 基于所述目标检测数据集中各样本对应的样本标签, 对所述初始检测模型进行正负样 本判别训练; 在完成正负样本判别训练后, 计算所述初始检测模型的损失函数; 其中, 所述损失函数 包括初始损失函数和正负 样本对应的损失函数; 依据所述初始检测模型的损失函数, 对所述初始检测模型中包含的语言编码模块和融 合模块各自的初始 化权重以及所述初始检测模型对应的权重参数进行调整, 得到训练好的 目标检测模型。 5.根据权利要求4所述的视觉问答任务的处理方法, 其特征在于, 所述基于所述目标检 测数据集中各样本对应的样本标签, 对所述初始检测模型进行正负 样本判别训练包括: 利用所述初始检测模型识别所述目标检测数据集中各样本对应的概 率值; 依据所述目标检测数据集中各样本对应的样本标签以及概率值, 确定出正负样本对应 的损失函数; 基于所述正负样本对应的损 失函数, 调整所述初始检测模型中融合模块对应的参数, 以完成正负 样本判别训练。 6.根据权利要求5所述的视觉问答任务的处理方法, 其特征在于, 所述依据所述目标检 测数据集中各样本对应的样本标签以及概 率值, 确定出正负 样本对应的损失函数包括: 将所述目标检测数据集中各样本对应的样本标签以及概率值输入至正负样本损失函权 利 要 求 书 1/3 页 2 CN 115129848 A 2数计算公式, 以确定出正负 样本对应的损失函数; 其中, 正负 样本损失函数计算公式为: ; 其中,N表示样本总个数, yi表示第i个样本的样本标签对应的数值, 样本标签为正样本 时yi=1, 样本标签为负样本时 yi=0,w+表示正样本对应的阈值, pi表示第i个样本属于正样本 的概率值,w‑表示负样本对应的阈值。 7.根据权利要求4所述的视觉问答任务的处理方法, 其特征在于, 针对于所述视觉问答 模型的训练过程, 所述方法包括: 利用训练好的目标检测模型从所述目标检测数据集中筛 选出正样本; 利用所述正样本对应的坐标信息、 分类类别和语义特征对初始视觉问答模型进行训 练, 以得到训练好的视 觉问答模型。 8.根据权利要求4所述的视觉问答任务的处理方法, 其特征在于, 所述对待分析图像和 第一文本进行 特征融合处 理, 得到融合特 征包括: 利用所述目标检测模型的目标检测模块提取所述待分析图像的图像特征; 其中, 所述 图像特征包括多个 检测框各自对应的图像特 征; 利用所述目标检测模型的语言编码模块对所述第一文本进行特征编码, 得到文本特 征; 利用所述目标检测模型的融合模块将所述图像特征与 所述文本特征进行融合, 得到融 合特征。 9.根据权利要求1 ‑8任意一项所述的视觉问答任务的处理方法, 其特征在于, 所述第一 文本为问题文本; 所述第二文本为与所述问题文本匹配的答案文本 。 10.根据权利要求9所述的视觉问答任务的处理方法, 其特征在于, 所述第一文本为多 个问题文本, 所述第二文本为与各 所述问题文本各自匹配的答案文本; 相应的, 所述依据所述待分析图像与所述第一文本的相关性, 从所述融合特征中筛选 出满足相关性要求的目标检测框包括: 利用训练好的目标检测模型对所述待分析图像以及多个所述问题文本进行并行分析, 以得到各 所述问题文本各自对应的目标检测框 。 11.根据权利要求1所述的视觉问答任务的处理方法, 其特征在于, 所述对待分析图像 和第一文本进行 特征融合处 理, 得到融合特 征包括: 提取所述待分析图像的图像特征; 其中, 所述图像特征包括多个检测框各自对应的图 像特征; 对所述第一文本进行 特征编码, 得到文本特 征; 将所述图像特 征与所述文本特 征进行融合, 得到融合特 征。 12.一种视 觉问答任务的处 理装置, 其特 征在于, 包括融合单 元、 筛选单元和得到单 元; 所述融合单元, 用于对待分析图像和第一文本进行特征融合处理, 得到融合特征; 其 中, 所述融合特 征包含各检测框的坐标信息; 所述筛选单元, 用于依据所述待分析图像与所述第一文本的相关性, 从所述融合特征 中筛选出满足相关性要求的目标检测框; 所述得到单元, 用于将所述目标检测框对应的坐标信息、 分类类别和语义特征输入训权 利 要 求 书 2/3 页 3 CN 115129848 A 3
专利 一种视觉问答任务的处理方法、装置、设备和介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:56
上传分享
举报
下载
原文档
(928.2 KB)
分享
友情链接
GB-T 34336-2017 纳米孔气凝胶复合绝热制品.pdf
TC260 网络安全标准实践指南 -网络数据分类分级指引 2021.pdf
项目跟踪器.xltx
T-BSIA 006—2022 知识图谱时空特性构建技术规范.pdf
UNE EN ISO IEC 19790 2020.pdf
GB-T 14264-2009 半导体材料术语.pdf
GB-T 10802-2006 通用软质聚醚型聚氨酯泡沫塑料.pdf
GB-T 24582-2023 多晶硅表面金属杂质含量测定 酸浸取-电感耦合等离子体质谱法.pdf
清华大学自动化系:2023预训练大模型与医疗:从算法研究到应用.pdf
DB50-T 1125.4-2021 区域性气象灾害过程评估规范 第4部分:低温 重庆市.pdf
GB-T 34352-2017 有机热载体锅炉及系统清洗导则.pdf
GB-T 24747-2023 有机热载体安全技术条件.pdf
T-GDPIA 11—2020 数字化工厂 改性塑料制造 功能架构.pdf
T-ZSFX 007—2020 中山装工业化生产技术规范.pdf
SY-T 7305-2021 连续油管作业技术规程.pdf
GB-T 31191-2014 常温锰系脱氧剂脱氧性能试验方法.pdf
GB-T 12771-2019 流体输送用不锈钢焊接钢管.pdf
GB-T 6113.201-2018 无线电骚扰和抗扰度测量设备和测量方法规范 第2-1部分:无线电骚扰和抗扰度测量方法 传导骚扰测量.pdf
GB-T 30998-2014信息技术软件安全保障规范.pdf
专利 一种智能语音调节的电动升降桌.PDF
1
/
25
评价文档
赞助3元 点击下载(928.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。