iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210279684.8 (22)申请日 2022.03.21 (71)申请人 北京信息科技大 学 地址 100192 北京市海淀区清河小营东路 12号 (72)发明人 阮涛 张海苗 刘畅 邱钧  (74)专利代理 机构 北京汇智胜知识产权代理事 务所(普通 合伙) 11346 专利代理师 赵立军 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Transformer与部件特征融合的鸟类细 粒度图像识别方法及装置 (57)摘要 本发明公开了一种基于Tran sformer和部件 特征融合的鸟类细粒度图像识别方法及装置, 该 方法包括: 步骤1, 通过将预处理后的图像输入基 于Transformer架构网络 的特征编码器, 提取出 基础特征图, 并将所述基础特征图输入注意力模 块, 生成部件注意力图; 步骤2, 将所述基础特征 图和所述部件注意力图进行双线性注意力池化 操作, 获得判别性部件特征; 步骤3, 通过将判别 性部件特征在通道维度上进行拼接, 得到融合了 判别性部件信息的增强特征表示; 步骤4, 通过将 增强特征表示输入全连接层, 完成类别的映射, 并通过交叉熵损失和 中心损失对模型参数进行 优化。 本发 明能够实现在弱监督下对鸟类图像进 行高精度识别。 权利要求书4页 说明书9页 附图2页 CN 114626476 A 2022.06.14 CN 114626476 A 1.一种基于Transformer和部件特征融合的鸟 类细粒度图像识别方法, 其特征在于, 包 括: 步骤1, 通过将预处理后的图像输入基于Transformer架构网络 的特征编码器, 提取出 基础特征图, 并将所述基础特 征图输入注意力模块, 生成部件注意力图; 步骤2, 将所述基础特征图和所述部件注意力图进行双线性注意力池化操作, 获得判别 性部件特 征; 步骤3, 通过将判别性部件特征在通道维度 上进行拼接, 得到 融合了判别性部件信 息的 增强特征表示; 步骤4, 通过将增强特征表示输入全连接层, 完成类别的映射, 并通过交叉熵损失和中 心损失对 模型参数进行优化。 2.如权利 要求1所述的基于Transformer和部件特征融合的鸟 类细粒度图像识别方法, 其特征在于, 所述 步骤1中提取 出基础特 征图的方法具体包括: 步骤11a, 将预处理好的原始图像I输入特征提取网络f, 提取二维的基础特征图F, F∈ (H·W)×D, 其中H、 W分别表示 为该基础特 征图F的高和宽, D表示嵌入维度大小; 步骤12a, 将基础特征图F进行重组, 获得三维的基础特征图 该过程 如下式(1)所示: 式中, reshape( ·)表示对基础特 征图进行重组。 3.如权利 要求1或2所述的基于Transformer和部件特征融合的鸟 类细粒度图像识别方 法, 其特征在于, 所述 步骤所述 步骤1中生成部件注意力图的方法具体包括: 步骤11b, 确定需要生成的部件注意力图的通道数M, 即生成部件特 征的数量; 步骤12b, 由一个卷积核为1 ×1的二维卷积和Si gmoid函数组成注意力模块G, 将特征图 输入注意力模块G, 生成表征目标物体的不同部件分布的部件注意力图A, 如下式(2)所 示: 式中, Ai(i=1, 2, ..., M)表示目标物体中的第i个部件注意力图。 4.如权利 要求3所述的基于Transformer和部件特征融合的鸟 类细粒度图像识别方法, 其特征在于, 所述 步骤2具体包括: 步骤21, 将不同的部件注意力图Ai的维度扩展到与基础特征图 的一致, 接着将扩展后 的部件注意力图Ai与基础特征图 按照如下式(3)的方式逐元素相乘, 得到判别性部件特 征Pi: 式中,⊙表示逐元素相乘运 算; 步骤22, 将判别性部件特征Pi按照下式(4)提供的全局平均池化进行聚合操作, 聚合各 判别性部件特 征Pi: hi= ψ(Pi)    (4) 式中, hi表示第i个部件聚合后的特 征, ψ(·)表示全局平均池化(GAP)。权 利 要 求 书 1/4 页 2 CN 114626476 A 25.如权利 要求4所述的基于Transformer和部件特征融合的鸟 类细粒度图像识别方法, 其特征在于, 所述 步骤3具体包括: 步骤31, 将聚合的判别性部件特征hi在通道维度上进行拼接, 从而得到增强的特征表 示, 即全局的部件特 征Q, 该特征融合了判别性部件信息, 特 征表达能力更强。 Q=Concate(h1, h2, ..., hM)        (5) 式中, Concate(·)表示特征拼接; 步骤32, 将 全局的部件特征Q进行L2范数的归一化处理后, 传入全连接层, 完成特征向量 到类别的映射。 6.如权利要求1 ‑5中任一项所述的基于Transformer和部件特征融合的鸟类细粒度图 像识别方法, 其特 征在于, 所述 步骤4具体包括: 步骤41, 将全局的部件特征Q输入到全连接层, 完成鸟类图像类别的映射, 得到预测值 与标签的交叉熵损失 用于对分类结果进行惩罚, 其单个样本的损失如式(6)所示: 式中, y表示类别标签, y ′表示预测值, P表示经Softmax处 理后概率; 步骤42, 采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督, 使得不同的部件特 征不断逼近特 征中心: 式中, qi是全局的部件特 征Q中的第i个部件特 征, ci是第i个部件特 征的中心; 步骤43, 初始化ci, 在模型训练过程中对其按如下式(9)更新: ci←ci+α(qi‑ci)    (9) 式中, α ∈[0, 1]是ci更新的学习率, 模型在训练阶段的总体损失 定义如下(10): 7.一种基于Transformer和部件特征融合的鸟 类细粒度图像识别装置, 其特征在于, 包 括: 部件注意力生成单元, 其用于通过将预处理后的图像输入基于Transformer架构网络 的特征编 码器, 提取出基础特征图, 并将所述基础特征图输入注意力模块, 生成部件注意力 图; 判别性部件特征生成单元, 其用于将所述基础特征图和所述部件注意力图进行双线性 注意力池化操作, 获得判别性部件特 征; 特征融合单元, 其用于通过将判别性部件特征在通道维度上进行拼接, 得到融合了判 别性部件信息的增强特 征表示; 参数学习优化单元, 其用于通过将增强特征表示输入全连接层, 完成类别的映射, 并通 过交叉熵损失和中心损失对 模型参数进行优化。 8.如权利 要求7所述的基于Transformer和部件特征融合的鸟 类细粒度图像识别装置, 其特征在于, 所述部件注意力生成单 元包括: 基础特征图提取子单 元, 其具体包括: 二维基础特征图提取模块, 其用于将预处理好的原始图像I输入特征提取网络f, 提取权 利 要 求 书 2/4 页 3 CN 114626476 A 3

.PDF文档 专利 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 第 1 页 专利 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 第 2 页 专利 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:20:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。