iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221021079 2.X (22)申请日 2022.03.04 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 刘俊 詹佳伟 汪铖杰  (74)专利代理 机构 北京市立方律师事务所 11330 专利代理师 张筱宁 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 图像识别方法、 装置、 设备、 可读存储介质及 程序产品 (57)摘要 本申请实施例提供了一种图像识别方法、 装 置、 设备、 存储介质及程序产品, 涉及人工智能领 域, 应用场景包括但不限于图像识别。 该方法包 括: 确定待识别图像对应的第一特征图和第二特 征图; 基于第一特征图以及物体类别集合中的每 一物体类别, 确定待识别图像属于每一物体类别 的第一概率值, 以及对应每一物体类别的激活 图; 将第二特征图和每一物体类别的激活图之间 进行特征融合处理, 确定特征融合后的特征图; 并基于每一物体类别的激活图, 确定待识别图像 的至少一个感兴趣候选区域; 基于特征融合后的 特征图和至少一个感兴趣候选区域, 确定待识别 图像属于每一物 体类别的第二概率值; 基于各第 一概率值和各第二概率值, 确定待识别图像所属 的物体类别。 权利要求书3页 说明书17页 附图8页 CN 114581710 A 2022.06.03 CN 114581710 A 1.一种图像识别方法, 其特 征在于, 包括: 获取待识别图像; 确定所述待识别图像对应的第 一特征图和第 二特征图, 所述第 一特征图的分辨率小于 所述第二特 征图的分辨 率; 基于所述第 一特征图以及预设的物体类别集合中的每一物体类别, 确定所述待识别图 像属于所述每一物体 类别的第一 概率值, 以及对应所述每一物体 类别的激活图; 将所述第二特征图和所述每一物体类别的激活图之间进行特征融合处理, 确定特征融 合后的特征图; 并基于所述每一物体类别的激活图, 确定所述待识别图像的至少一个感兴 趣候选区域; 基于所述特征融合后的特征图和所述至少一个感兴趣候选区域, 确定所述待识别图像 属于所述每一物体 类别的第二 概率值; 基于各第一 概率值和各第二 概率值, 确定所述待识别图像所属的物体 类别。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述待识别图像对应的第 一特征 图和第二特 征图, 包括: 将所述待识别图像输入至第 一神经网络的特征提取模型, 从所述特征提取模型的第四 层卷积块中提取得到第二特征图, 以及从所述特征提取模型的第五层卷积块中提取得到第 一特征图; 其中, 所述特征提取模型包括第一层卷积块、 第二层卷积块、 第三层卷积块、 所述第 四 层卷积块和所述第五层卷积块, 所述第一层卷积块、 所述第二层卷积块、 所述第三层卷积 块、 所述第四层卷积块和所述第五层卷积块之间存在级联关系。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一特征图以及预设的物体 类别集合中的每一物体类别, 确定所述待识别图像属于所述每一物体类别的第一概率值, 包括: 将所述第一特征图输入至所述第 一神经网络的第 一全连接层和最大池化层, 基于所述 物体类别集合中的每一物体类别, 进行分类处理, 得到所述待识别图像中存在所述每一物 体类别对应的第一 概率值。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一特征图以及预设的物体 类别集合中的每一物体 类别, 确定对应所述每一物体 类别的激活图, 包括: 将所述第一特征图进行降维处理, 确定降维后的特征图, 所述降维后的特征图的维数 与所述物体 类别集合中的物体 类别数量相同; 将降维后的特征图输入至所述第一神经网络的批规范化层, 进行批规范化处理, 确定 对应所述每一物体 类别的激活图。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述第 二特征图和所述每一物体类 别的激活图之间进行 特征融合处 理, 确定特 征融合后的特 征图, 包括: 将所述第二特征图和所述每一物体类别的激活图输入至所述第一神经网络的特征融 合模型, 对所述每一物体 类别的激活图进行 上采样和线性差值处 理, 得到第三特 征图; 并将所述第 二特征图和所述第 三特征图之间进行按位求和处理, 得到特征融合后的特 征图。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述每一物体类别的激活图, 确权 利 要 求 书 1/3 页 2 CN 114581710 A 2定所述待识别图像的至少一个感兴趣候选区域, 包括: 将所述每一物体类别的激活图, 输入至所述第一神经网络的感兴趣候选区域选择模 型, 将所述每一物体类别的激活图中的背景筛除, 得到所述每一物体类别的筛除背景之后 的激活图; 将各第一概率值按照从大到小进行排序, 对排序在前的至少一个第 一概率值对应的筛 除背景之后的激活图, 进行边缘提取处理, 得到所述待识别图像的至少一个感兴趣候选区 域。 7.根据权利要求1所述的方法, 其特征在于, 所述基于所述特征融合后的特征图和所述 至少一个感兴趣候选区域, 确定所述待识别图像属于所述每一物体类别的第二概率值, 包 括: 将所述特征融合后的特征图和所述至少一个感兴趣候选区域输入至所述第一神经网 络的感兴趣候选区域池化层, 对所述特征融合后的特征图进行裁剪处理, 得到感兴趣候选 区域的特 征图; 基于感兴趣候选区域的特征图, 确定所述待识别图像属于所述每一物体类别的第 二概 率值。 8.根据权利要求1所述的方法, 其特征在于, 所述基于各第一概率值和各第二概率值, 确定所述待识别图像所属的物体 类别, 包括: 针对所述物体类别集合中的一个物体类别, 若所述一个物体类别对应的第 一概率值和 所述一个物体类别对应的第二概率值之间的平均值, 小于预设类别阈值, 则确定所述待识 别图像中存在所述 一个物体 类别。 9.根据权利要求1所述的方法, 其特 征在于, 在所述获取待识别图像之前, 还 包括: 将训练样本输入至第 二神经网络, 确定全局分支预测模型的第 一损失函数的值和所述 训练样本中每一物体类别的激活图; 所述第二神经网络包括全局分支预测模型、 局部分支 预测模型和弱监督模型, 所述全局分支预测模型包括特征提取模型、 第一全连接层和最大 池化层, 所述局部分支预测模型包括特征融合模型、 感兴趣候选区域选择模型、 批规范化 层、 感兴趣候选区域池化层和第二全连接层; 基于将所述训练样本中每一物体类别的激活图, 输入至所述弱监督模型, 抑制所述训 练样本中每一物体 类别的激活图的噪声, 确定所述弱监 督模型的第二损失函数的值; 将所述训练样本 中每一物体类别的激活图, 分别 输入至所述特征融合模型和所述感兴 趣候选区域选择模型, 确定局部分支预测模型的第三损失函数的值; 基于所述第一损 失函数的值、 所述第二损 失函数的值以及所述第三损 失函数的值, 更 新所述第二神经网络的参数; 若所述第一损失函数的值、 所述第 二损失函数的值以及所述第 三损失函数的值之间的 和小于预设损失阈值, 则结束所述第二神经网络的训练; 并基于训练得到所述第二神经网 络, 确定所述第一神经网络, 所述第一神经网络不包括所述弱监 督模型。 10.一种图像识别装置, 其特 征在于, 包括: 第一处理模块, 用于获取待识别图像; 第二处理模块, 用于确定所述待识别图像对应的第一特征图和第二特征图, 所述第一 特征图的分辨 率小于所述第二特 征图的分辨 率;权 利 要 求 书 2/3 页 3 CN 114581710 A 3

.PDF文档 专利 图像识别方法、装置、设备、可读存储介质及程序产品

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像识别方法、装置、设备、可读存储介质及程序产品 第 1 页 专利 图像识别方法、装置、设备、可读存储介质及程序产品 第 2 页 专利 图像识别方法、装置、设备、可读存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:20:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。