专利 一种注意力相似度迁移的跨模态哈希检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210882910.1 (22)申请日 2022.07.26 (71)申请人北方民族大学地址 750021 宁夏回族自治区银川市西夏区文昌北街204 号 (72)发明人王海荣　梁焕　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 16/51(2019.01) G06F 16/583(2019.01) G06F 40/194(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种注意力相似度迁移的跨模态哈希检索方法 (57)摘要本发明公开了一种注意力相似度迁移的跨模态哈希检索方法，包括：特征提取多模态数据，得到文本特征向量和图像特征图；将图像特征图利用混合自注意力机制分配自注意力权重，利用多头注意力机制对文本特征向量分配自注意力权重，根据自注意力权重大小分别强化关注图像和文本的关键特征；将图像和文本的关键特征进行多模态共同注意力机制处理，将多模态数据特征映射至公共实值空间；计算公共实值空间的特征相似度，利用迁移学习和哈希函数，将相似关系从公共实值空间迁移至哈希空间，训练得到哈希码；根据哈希码计算相似度，并进行排序。本发明能够强化关注图像和文本的关键信息，提升特征提取质量，加强了模态间的信息交互，同时降低了训练难度。权利要求书3页说明书9页附图2页 CN 115098620 A 2022.09.23 CN 115098620 A 1.一种注意力相似度迁移的跨模态哈希检索方法，其特征在于，包括以下步骤： S1：获取多模态数据，并对数据进行预处理得到统一大小的图像和去除标点的文本； S2：对经过预处理后的多模态数据进行特征提取，提取出相应的文本特征向量和图像特征图； S3：设计包含了通道注意力子分支和空间注意力子分支的混合自注意力机制，将图像特征图利用混合自注意力机制分配自注意力权重，利用多头注意力机制对文本特征向量分配自注意力权重，并根据自注意力权重大小分别强化关注图像和文本的关键特征； S4：将经过强化关注得到的图像和文本的关键特征，进行多模态共同注意力机制处理，减少图像和文本通道之间的信息不平衡，加强多模态信息交互，并将多模态数据特征映射至公共实值空间； S5：计算公共实值空间的特征相似度，利用迁移学习和哈希函数，将相似关系从公共实值空间迁移至哈希空间，训练得到哈希码； S6：根据得到的哈希码计算相似度，并进行排序，选择排名前n个候选集实例作为最终的查询结果。 2.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法，其特征在于，在步骤S2中，对于图像数据使用Resnet ‑50神经网络提取图像特征图，对于文本数据采用 Bi‑LSTM模型提取特征向量。 3.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法，其特征在于，步骤S3的具体操作步骤为： S31：对于输入的图像特征图Fmap，在通道注意力子分支，首先进行全局平均池化，避免空间信息对注意力的影响，依次经过全连接层、 Relu激活函数、全连接层、 BN层处理，得到通道注意力子分支掩码Mc： Mc＝BN(FC(Rule(FC(GAP(Fmap))) 式中， FC代表全连接层， GAP代表全局平均池化；对于空间注意力子分支，首先将图像特征图Fmap经过1*1*1卷积层组合成单通道的特征融合图，去掉通道后得到特征矩阵F0，避免通道信息分布对空间注意力权重的影响；将F0经 softmax函数计算获得全局相关性矩阵F1， F0和F1对应元素相乘，获得全局特征矩阵，输入到 BN层获得空间注意力子分支掩码，公式表示如下： F0＝Conv1*1*1(Fmap) F1＝softmax(F0) Ms＝BN(F0*F1) 式中， Conv1*1*1表示1*1*1卷积， Ms表示空间注意力子分支掩码； S32：将通道注意力子分支掩码和空间注意力子分支掩码按比例计算得到混合自注意力机制掩码，处理得到经混合自注意力机制强化关注的图像关键特征Fi，公式表示如下： Fi＝Fmap(1+σ(a*Mc+β *Ms)) 式中， α 和β 为学习得到的可变权重， σ 代表Sigmoid函数； S33：通过Bi ‑LSTM输出包含所有时间步的输出O＝{O1,O2， ...,Ot,...,Om}，其中Om代表第m个时间步的输出向量，以及最后一个时间步的隐藏状态Hm，为了实现多头注意力机制，将输入的向量看作<Key,Value>键值对的形式，根据给定的任务目标中的查询值Query计算权　利　要　求　书 1/3 页 2 CN 115098620 A 2Key与Query之间的相似系数，能够得到Value值对应的权重系数，在此使用Q、 K、 V分别表示 Query、 Key和Value，第t个时间步的权重值at的公式如下： Q＝ωQHm Vt＝ωVOt K＝ωKOt 式中， ωQ、 ωV、 ωK为网络参数，随反向传播而修改， Ot代表第t个时间步的输出， Vt代表第t个时间步的Value值， KT代表K的转置， dx代表x维向量； S34：将各时间步权重值与Value值加权求和，得到带有单头自注意力的文本特征向量 zy：式中， zy代表第y个单头注意力计算结果； S35：将步骤S33和S34进行h 次，得到多头自注意力文本{z1,z2...,zy,...zh}，其中zh代表第h个单头注意力计算结果，将其拼接并做一次线性变换后得到带有多头自注意力的文本特征向量Ft： Ft＝Concat(z1,z2,...,zy,...,zh)ωz 式中， ωz为网络参数， h为自注意力的头数。 4.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法，其特征在于，步骤S4的具体操作步骤为： S41：对于输入的图像关键特征Fi，利用得softmax函数计算，到图像特征注意力分布 Ai： Ai＝softmax(Fi) 对于输入的文本关键特征Ft，利用softmax函数，得到文本特征注意力分布 At： At＝softmax(Ft) S42：将图像关键特征Fi与文本特征注意力分布At相乘得到具有共同注意力的图像特征 WI：式中，表示Hadamard乘积；将文本关键特征Ft与图像特征注意力分布 Ai相乘得到具有共同注意力的文本特征WT： S43：将具有共同注意力的图像特征WI和文本特征WT经过全连接层处理，映射至k维的公共实值空间，其中k 为哈希码的长度。 5.根据权利要求1所述的一种注意力相似度迁移的跨模态哈希检索方法，其特征在于，步骤S5的具体操作步骤为： S51：利用余弦相似度公式，计算公共实值空间中模态内相似度SD：权　利　要　求　书 2/3 页 3 CN 115098620 A 3

专利 一种注意力相似度迁移的跨模态哈希检索方法

专利一种注意力相似度迁移的跨模态哈希检索方法