iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210152340.0 (22)申请日 2022.02.18 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 谭资昌 刘阿建 郭国栋  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06V 40/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 图像处理方法、 神经网络及其训练方法、 设 备和介质 (57)摘要 本公开提供了一种图像处理方法、 神经网络 及其训练方法、 设备和介质, 涉及人工智能领域, 具体涉及计算机视觉技术、 图像处理技术和深度 学习技术。 神经网络包括与多个模态对应的多个 分支网络, 分支网络包括: 输入子网络, 被配置为 在对应的模态的输入图像中提取第一特征; 第一 交互子网络被配置为: 针对多个模态中的每一个 模态确定第一注意力分数; 基于多个模态各自的 第一注意力分数调整对应的模态的第一注意力 分数; 基于调整后的对应的模态的第一注意力分 数对对应的模态的第一特征进行处理以得到第 二特征; 输出子网络被配置为基于对应的模态的 第二特征得到第一结果。 神经网络还包括: 综合 输出子网络被配置为基于模态的多个第二特征, 得到第二结果。 权利要求书4页 说明书14页 附图6页 CN 114550313 A 2022.05.27 CN 114550313 A 1.一种神经网络, 所述神经网络包括与多个模态对应的多个分支网络, 其中, 所述多个 分支网络中的每一个分支网络包括: 输入子网络, 被配置为在对应的模态的输入图像中提取所述对应的模态的多个第 一特 征, 其中, 所述对应的模态的多个第一特征与所述多个模态中的任一其他模态的多个第一 特征相对应; 第一交互子网络, 被 配置为: 针对所述多个模态中的每一个模态, 确定该模态的多个第一注意力分数, 所述多个第 一注意力分数与该模态的多个第一特 征对应; 基于所述多个模态各自的多个第 一注意力分数, 调整所述对应的模态的多个第 一注意 力分数; 以及 基于调整后的所述对应的模态的多个第一注意力分数对所述对应的模态的多个第一 特征进行处 理, 以得到所述对应的模态的多个第二特 征; 以及 输出子网络, 被 配置为基于所述对应的模态的多个第二特 征, 得到第一结果, 其中, 所述神经网络还 包括: 综合输出子网络, 被 配置为基于所述多个模态各自的多个第二特 征, 得到第二结果。 2.根据权利要求1所述的神经网络, 其中, 所述调整所述对应的模态的该第 一特征的第 一注意力分数包括: 针对所述对应的模态的多个第 一注意力分数中的每一个第 一注意力分数, 将所述多个 模态各自与该第一注意力分数对应的第一注意力分数与预设阈值进行比较; 基于比较结果, 调整所述对应的模态的该第一注意力分数。 3.根据权利要求2所述的神经网络, 其中, 所述基于比较结果, 调整所述对应的模态的 该第一注意力分数包括执 行以下步骤中的至少一项: 响应于确定所述多个模态各自与该第一注意力分数对应的第一注意力分数中的至少 一个第一注意力分数 大于预设阈值, 提升该第一注意力分数; 以及 响应于确定所述多个模态各自与该第一注意力分数对应的第一注意力分数均不大于 所述预设阈值, 降低将该第一注意力分数。 4.根据权利要求1所述的神经网络, 其中, 所述多个第 一特征包括第 一全局特征和多个 第一局部特 征, 其中, 所述确定该模态的多个第一注意力分数包括: 基于该模态的第一全局特征和该模态的多个第一局部特征中的每一个第一局部特征 的乘积, 确定该模态的多个第一注意力 分数, 所述多个第一注意力 分数与所述多个第一局 部特征对应。 5.根据权利要求 4所述的神经网络, 其中, 所述第一交 互子网络被进一 步配置为: 针对多个模态中的每一个模态, 利用第一查询参数, 将该模态的第一全局特征映射为 第一查询特征; 以及 分别利用第 一键参数和第 一值参数, 将该模态的多个第 一局部特征映射为多个第 一键 特征和第一 值特征, 其中, 所述确定该模态的多个第一注意力分数包括: 基于该模态的第一查询特征与该模态的多个第一键特征中的每一个第一键特征的乘 积, 确定该模态的多个第一注意力分数,权 利 要 求 书 1/4 页 2 CN 114550313 A 2其中, 所述基于调 整后的所述对应的模态的多个第 一局部特征各自的第 一注意力分数 对所述对应的模态的多个第一局部特 征进行处 理包括: 基于调整后的所述对应的模态的多个第一注意力分数分别和所述对应的模态的多个 第一值特征中的对应的第一 值特征的乘积, 得到所述对应的模态的多个第二特 征。 6.根据权利要求5所述的神经网络, 其中, 所述第 一交互子网络使用同一组的第 一查询 参数、 第一键参数、 以及第一值参数对所述多个模态中的每一个模态的第一全局特征和多 个第一局部特征进行映射处理, 并且其中, 所述多个模态各自的分支网络中的对应的第一 交互子网络使用同一组第一 查询参数、 第一键参数、 以及第一 值参数。 7.根据权利要求4 ‑6中任一项所述的神经网络, 其中, 所述多个分支网络 中的每一个分 支网络包括第一数量的第一交 互子网络, 并且该分支网络还 包括: 第一融合子网络, 被配置为将所述第 一数量的第 一交互子网络各自输出的多个第 二特 征进行融合, 以得到融合后的多个第二特征, 其中, 所述融合后的多个第二特征包括第二全 局特征和多个第二局部特 征, 其中, 所述输出子网络被进一步配置为基于所述对应的模态的第二全局特征, 得到所 述第一结果, 并且其中, 所述综合输出子网络被进一步配置为基于所述多个模态各自的第 二全局特 征, 得到所述第二结果。 8.根据权利要求7 所述的神经网络, 其中, 所述多个分支网络中的每一个分支网络还 包括: 第二交互子网络, 被 配置为: 在所述多个模态中确定不同于所述对应的模态的目标模态; 基于所述对应的模态的第 二全局特征和所述目标模态的多个第 一局部特征, 确定所述 目标模态的多个第二注意力分数, 所述多个第二注意力分数与所述多个第一局部特征对 应; 以及 基于所述多个第 二注意力分数对所述目标模态的多个第 一局部特征进行处理, 以得到 所述对应的模态的多个第三特 征, 其中, 所述输出子网络被进一步配置为基于所述对应的模态的多个第三特征, 得到第 三结果, 并且其中, 所述综合输出子网络被进一步配置为基于所述多个模态各自的多个第 三特 征, 得到第四结果。 9.根据权利要求8所述的神经网络, 其中, 所述第二交 互子网络被进一 步配置为: 利用第二 查询参数, 将所述对应的模态的第二全局特 征映射为第二查询特征; 以及 分别利用第 二键参数和第 二值参数, 将所述目标模态的多个第 一局部特征映射为多个 第二键特 征和第二 值特征, 其中, 所述确定所述目标模态的多个第二注意力分数包括: 基于所述对应的模态的第二查询特征与所述目标模态的多个第二键特征中的每一个 第二键特 征的乘积, 确定所述多个第二注意力分数, 其中, 所述基于所述多个第 二注意力分数对所述目标模态的多个第 一局部特征进行处 理包括:权 利 要 求 书 2/4 页 3 CN 114550313 A 3

.PDF文档 专利 图像处理方法、神经网络及其训练方法、设备和介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像处理方法、神经网络及其训练方法、设备和介质 第 1 页 专利 图像处理方法、神经网络及其训练方法、设备和介质 第 2 页 专利 图像处理方法、神经网络及其训练方法、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:20:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。