(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210882910.1
(22)申请日 2022.07.26
(71)申请人 北方民族大 学
地址 750021 宁夏回族自治区银川市西夏
区文昌北街204 号
(72)发明人 王海荣 梁焕
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 冯炳辉
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/33(2019.01)
G06F 16/51(2019.01)
G06F 16/583(2019.01)
G06F 40/194(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种注意力相似度迁移的跨模态哈希检索
方法
(57)摘要
本发明公开了一种注意力相似度迁移的跨
模态哈希检索方法, 包括: 特征提取多模态数据,
得到文本 特征向量和图像特征图; 将图像特征图
利用混合自注 意力机制分配自注 意力权重, 利用
多头注意力机制对文本特征向量分配自注意力
权重, 根据自注意力权重大小分别强化关注图像
和文本的关键特征; 将图像和文本的关键特征进
行多模态共同注意力机制处理, 将多模态数据特
征映射至公共实值空间; 计算公共实值空间的特
征相似度, 利用迁移学习和哈希函数, 将相似关
系从公共实值空间迁移至哈希空间, 训练得到哈
希码; 根据哈希码计算相似度, 并进行排序。 本发
明能够强化 关注图像和文本的关键信息, 提升特
征提取质量, 加强了模态间的信息交互, 同时降
低了训练难度。
权利要求书3页 说明书9页 附图2页
CN 115098620 A
2022.09.23
CN 115098620 A
1.一种注意力相似度迁移的跨模态哈希检索方法, 其特 征在于, 包括以下步骤:
S1: 获取多模态数据, 并对数据进行 预处理得到统一大小的图像和去除标点的文本;
S2: 对经过预处理后的多模态数据进行特征提取, 提取出相应的文本特征向量和图像
特征图;
S3: 设计包含了通道注意力子分支和空间注意力子分支的混合自注意力机制, 将图像
特征图利用混合自注 意力机制分配自注意力权重, 利用多头注意力机制对文本特征向量分
配自注意力权 重, 并根据自注意力权 重大小分别强化关注图像和文本的关键特 征;
S4: 将经过强化关注得到的图像和文本的关键特征, 进行多模态共同注意力机制处理,
减少图像和文本通道之间的信息不平衡, 加强多模态信息交互, 并将多模态数据特征映射
至公共实值空间;
S5: 计算公共实值空间的特征相似度, 利用迁移学习和哈希函数, 将相似关系从公共实
值空间迁移至哈希空间, 训练得到哈希码;
S6: 根据得到的哈希码计算相似度, 并进行排序, 选择排名前n个候选集实例作为最终
的查询结果。
2.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法, 其特征在于,
在步骤S2中, 对于图像数据使用Resnet ‑50神经网络提取图像特征图, 对于文本数据采用
Bi‑LSTM模型提取 特征向量。
3.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法, 其特征在于,
步骤S3的具体操作步骤为:
S31: 对于输入的图像特征 图Fmap, 在通道注意力子分支, 首先进行全局平均池化, 避免
空间信息对注 意力的影响, 依次经过全 连接层、 Relu激活函数、 全连接层、 BN层处理, 得到通
道注意力子分支掩码Mc:
Mc=BN(FC(Rule(FC(GAP(Fmap)))
式中, FC代表全连接层, GAP代 表全局平均池化;
对于空间注意力子分支, 首先将图像特征图Fmap经过1*1*1卷积层组合成单通道的特征
融合图, 去掉通道后得到特征矩阵F0, 避免通道信息分布对空间注意力权重的影响; 将F0经
softmax函数计算获得全局相关性矩阵F1, F0和F1对应元素相乘, 获得全局特征矩阵, 输入到
BN层获得空间注意力子分支掩码, 公式表示如下:
F0=Conv1*1*1(Fmap)
F1=softmax(F0)
Ms=BN(F0*F1)
式中, Conv1*1*1表示1*1*1卷积, Ms表示空间注意力子分支掩码;
S32: 将通道注意力子分支掩码和空间注意力子分支掩码按比例计算得到混合自注意
力机制掩码, 处 理得到经混合自注意力机制强化关注的图像关键特 征Fi, 公式表示如下:
Fi=Fmap(1+σ(a*Mc+β *Ms))
式中, α 和β 为学习得到的可变权 重, σ 代表Sigmoid函数;
S33: 通过Bi ‑LSTM输出包含所有时间步的输出O={O1,O2, ...,Ot,...,Om}, 其中Om代表
第m个时间步的输出向量, 以及最后一个时间步的隐藏状态Hm, 为了实现多头注意力机制,
将输入的向量看作<Key,Value>键值对的形式, 根据给定的任务目标中的查询值Query计算权 利 要 求 书 1/3 页
2
CN 115098620 A
2Key与Query之间的相似系数, 能够得到Value值对应的权重系数, 在此使用Q、 K、 V分别表示
Query、 Key和Value, 第t个时间步的权 重值at的公式如下:
Q=ωQHm
Vt=ωVOt
K=ωKOt
式中, ωQ、 ωV、 ωK为网络参数, 随反向传播而修改, Ot代表第t个时间步的输出, Vt代表
第t个时间步的Value值, KT代表K的转置, dx代表x维向量;
S34: 将各时间步权重值与Value值加权求和, 得到带有单头自注意力的文本特征向量
zy:
式中, zy代表第y个单头注意力计算结果;
S35: 将步骤S33和S34进行h 次, 得到多头自注意力文本{z1,z2...,zy,...zh}, 其中zh代
表第h个单头注意力计算结果, 将其拼接并做一次线性变换后得到带有多头自注意力的文
本特征向量Ft:
Ft=Concat(z1,z2,...,zy,...,zh)ωz
式中, ωz为网络参数, h为自注意力的头数。
4.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法, 其特征在于,
步骤S4的具体操作步骤为:
S41: 对于 输入的图像关键特 征Fi, 利用得softmax函数计算, 到图像特 征注意力分布 Ai:
Ai=softmax(Fi)
对于输入的文本关键特 征Ft, 利用softmax函数, 得到文本特 征注意力分布 At:
At=softmax(Ft)
S42: 将图像关键特征Fi与文本特征注意力分布At相乘得到具有共同注意力的图像特征
WI:
式中,
表示Hadamard乘积;
将文本关键特 征Ft与图像特 征注意力分布 Ai相乘得到具有共同注意力的文本特 征WT:
S43: 将具有共同注意力的图像特征WI和文本特征WT经过全连接层处理, 映射至k维的公
共实值空间, 其中k 为哈希码的长度。
5.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法, 其特征在于,
步骤S5的具体操作步骤为:
S51: 利用余弦相似度公式, 计算公共实值空间中模态内相似度SD:权 利 要 求 书 2/3 页
3
CN 115098620 A
3
专利 一种注意力相似度迁移的跨模态哈希检索方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:28上传分享