iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221028276 6.8 (22)申请日 2022.03.22 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 陈又新 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 廖慧贤 (51)Int.Cl. G06V 10/25(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 30/146(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06F 16/35(2019.01) (54)发明名称 图像描述生 成方法和装置、 电子设备及存储 介质 (57)摘要 本申请实施例提供了一种图像描述生成方 法和装置、 电子设备及存储介质, 属于人工智能 技术领域。 该方法包括: 获取原始图像; 对原始图 像进行目标检测, 得到目标区域嵌入向量; 对原 始图像进行文本检测, 得到文本嵌入向量; 对文 本嵌入向量和目标区域嵌入向量进行拼接处理, 得到目标词汇嵌入向量; 对文本嵌入向量、 目标 区域嵌入向量 以及目标词汇嵌入向量进行特征 融合, 得到目标特征向量; 通过预先训练的图像 描述生成模型对目标特征向量进行语义分析, 得 到初始图像描述信息; 对初始图像描述信息进行 筛选处理, 得到目标图像描述信息。 本申请实施 例能够提高生成图像描述信息的准确性。 权利要求书3页 说明书16页 附图6页 CN 114648631 A 2022.06.21 CN 114648631 A 1.一种图像描述 生成方法, 其特 征在于, 所述方法包括: 获取原始图像; 对所述原 始图像进行目标检测, 得到目标区域嵌入向量; 对所述原 始图像进行文本检测, 得到文本嵌入向量; 对所述文本嵌入向量和所述目标区域嵌入向量进行拼接处理, 得到目标词汇嵌入向 量; 对所述文本嵌入向量、 所述目标区域嵌入向量以及所述目标词汇嵌入向量进行特征融 合, 得到目标 特征向量; 通过预先训练的图像描述生成模型对所述目标特征向量进行语义分析, 得到初始图像 描述信息; 对所述初始图像描述信息进行筛 选处理, 得到目标图像描述信息 。 2.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述对所述原始图像进行目 标检测, 得到目标区域嵌入向量的步骤, 包括: 将所述原始图像输入至预设的目标检测模型; 其中所述目标检测模型包括卷积层、 RPN 层、 RoI pooling层以及全连接层; 通过所述卷积层对所述原 始图像进行全局特 征提取, 得到多个目标 特征图; 通过所述RPN层、 所述RoI pooling层以及预设的坐标参数对所述目标特征图进行目标 检测, 得到图像目标检测框; 通过所述全连接层将所述图像目标检测框映射到预设的第 一向量空间, 得到初始检测 嵌入向量; 通过双线性峰插法对所述初始检测嵌入向量进行变维处理, 得到所述目标区域嵌入向 量。 3.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述对所述原始图像进行文 本检测, 得到文本嵌入向量的步骤, 包括: 将所述原始图像输入至预设的文本检测模型中, 其中, 所述文本检测模型包括文本识 别网络、 分类网络和编码网络; 通过所述文本识别网络对所述原 始图像进行文本识别处 理, 得到文本标识数据; 通过所述分类网络对所述文本标识数据进行置信度计算, 得到第一置信度数据; 通过所述编码网络对所述文本标识数据进行置信度计算, 得到第二置信度数据; 根据所述第一置信度数据和所述第二置信度数据, 得到所述文本嵌入向量。 4.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述对所述文本嵌入向量和 所述目标区域嵌入向量进行拼接处 理, 得到目标词汇嵌入向量的步骤, 包括: 将所述文本嵌入向量映射到预设的第二向量空间, 得到文本特征向量; 并将所述目标 区域嵌入向量映射到所述第二向量空间, 得到目标区域特 征向量; 对所述文本特征向量和所述目标区域特征向量进行拼接处理, 得到所述目标词汇嵌入 向量。 5.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述对所述文本嵌入向量、 所述目标区域嵌入向量以及所述目标词汇嵌入向量进 行特征融合, 得到目标特征向量的步 骤, 包括:权 利 要 求 书 1/3 页 2 CN 114648631 A 2将所述文本嵌入向量、 所述目标区域嵌入向量以及所述目标词汇嵌入向量输入至预设 的特征融合模型; 其中, 所述特 征融合模型包括第一 解码层、 t ransformer层; 通过所述第一 解码层对所述目标词汇嵌入向量进行解码处 理, 得到目标词汇隐变量; 通过所述transformer层对所述文本嵌入向量、 所述目标区域嵌入向量、 所述目标词汇 隐变量进行 特征融合, 得到所述目标 特征向量。 6.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述图像描述生成模型包括 第二解码层、 第一指 针网络、 第二指针网络和线性层, 所述通过预先训练的图像描述生 成模 型对所述目标 特征向量进行语义分析, 得到初始图像描述信息的步骤, 包括: 通过所述第二 解码层对所述目标 特征向量进行解码处 理, 得到候选图像表达词段; 通过所述第一指针网络和预设目标检测类别对所述候选图像表达词段进行词汇概率 计算, 得到第一 概率值; 通过所述第 二指针网络和预设标识标签对所述候选图像表达词段进行词汇概率计算, 得到第二 概率值; 通过所述线性层和预设词典对所述候选图像表达词段进行词汇概率计算, 得到第 三概 率值; 根据所述第一概率值、 所述第二概率值、 所述第三概率值, 确定目标图像表达词段, 并 根据所述目标图像表达词段生成所述初始图像描述信息 。 7.根据权利要求1至6任一项所述的图像描述生成方法, 其特征在于, 所述对所述初始 图像描述信息进行筛 选处理, 得到目标图像描述信息的步骤, 包括: 对所述初始图像描述信 息进行重复性检测, 得到所述初始图像描述信 息中每一图像单 词的定义 值; 根据所述定义 值对所述图像单词进行筛 选处理, 得到所述目标图像描述信息 。 8.一种图像描述 生成装置, 其特 征在于, 所述装置包括: 图像获取模块, 用于获取原 始图像; 目标检测模块, 用于对所述原 始图像进行目标检测, 得到目标区域嵌入向量; 文本检测模块, 用于对所述原 始图像进行文本检测, 得到文本嵌入向量; 拼接模块, 用于对所述文本嵌入向量和所述目标区域嵌入向量进行拼接处理, 得到目 标词汇嵌入向量; 特征融合模块, 用于对所述文本嵌入向量、 所述目标区域嵌入向量以及所述目标词汇 嵌入向量进行 特征融合, 得到目标 特征向量; 图像描述生成模块, 用于通过预先训练的图像描述生成模型对所述目标特征向量进行 语义分析, 得到初始图像描述信息; 筛选处理模块, 用于对所述初始图像描述信息进行筛 选处理, 得到目标图像描述信息 。 9.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器、 存储在所述存储器 上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通 信的数据总线, 所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像描述 生成方法的步骤。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特 征在于, 所述存储介质存储有一个或者多个程序, 所述一个或者多个程序可被一个或者多权 利 要 求 书 2/3 页 3 CN 114648631 A 3
专利 图像描述生成方法和装置、电子设备及存储介质
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 01:20:27
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
信通院 数据安全治理实践指南-1.0.pdf
GB-T 11263-2017 热轧H型钢和剖分T型钢.pdf
T-SISTB 006—2021 现代物业管理评价指标体系1.0.pdf
GB-T 13923-2022 基础地理信息要素分类与代码.pdf
DB21-T 3870-2023 工业数字化转型典型场景评估规范 辽宁省.pdf
T-CSAE 72—2018 汽车涂层耐紫外线穿透性能测试及评价方法.pdf
GM-T 0038-2014 证书认证密钥管理系统检测规范.pdf
GB 19415-2013 单端荧光灯能效限定值及节能评价值.pdf
GB/T 15055-2021 冲压件未注公差尺寸极限偏差.pdf
GB-T 36629.3-2018 信息安全技术 公民网络电子身份标识安全技术要求 第3部分:验证服务消息及其处理规则.pdf
GB-T 23851-2017 融雪剂.pdf
信通院 封莎 云服务数据安全能力构建与最佳实践.pdf
GB-T 29729-2022 氢系统安全的基本要求.pdf
T-CES 177—2022 磷酸铁锂电池储能舱早期安全预警系统技术规范.pdf
GM-T 0005-2012 随机性检测规范.pdf
T-CSAE 81—2018 能量回馈式整车动力学控制系统 性能要求及台架试验方法.pdf
GB-T 21050-2019 信息安全技术网络交换机安全技术要求.pdf
GB-T 39334.1-2020 机械产品制造过程数字化仿真 第1部分:通用要求.pdf
阿里云 云原生数据湖解决方案蓝皮书.pdf
ISO 17987-7-2016.pdf
1
/
3
26
评价文档
赞助3元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。