专利 一种视频目标跟踪方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210147505.5 (22)申请日 2022.02.17 (71)申请人北京深睿博联科技有限责任公司地址 100080 北京市海淀区海淀大街8号A 座21层A区申请人杭州深睿博联科技有限公司 (72)发明人高凯　周振　俞益洲　李一鸣　乔昕　 (74)专利代理机构北京天方智力知识产权代理事务所(普通合伙) 11719 专利代理师路远 (51)Int.Cl. G06T 7/246(2017.01) G06K 9/62(2022.01) G06V 10/80(2022.01) (54)发明名称一种视频目标跟踪方法及装置 (57)摘要本发明提供一种视频目标跟踪方法及装置。所述方法包括：将跟踪目标图像和搜索区域图像分别输入到第一特征提取模块和第二特征提取模块，进行图像特征提取；将跟踪目标特征和搜索区域特征输入到基于交互注意力机制的特征融合模块进行特征融合；将融合特征输入到分类和回归模块，输出包围框内的图像类别及包围框的位置及尺寸信息。本发明通过采用注意力机制进行图像特征提取，可获得感兴趣区域特征以提高特征提取效率；采用交互注意力机制进行特征融合使目标特征和搜索区域特征充分交互，解决了现有技术因为光照、形变、遮挡等情况跟丢目标的问题。权利要求书2页说明书7页附图2页 CN 114708297 A 2022.07.05 CN 114708297 A 1.一种视频目标跟踪方法，其特征在于，包括以下步骤：将跟踪目标图像和搜索区域图像分别输入到基于注意力机制、结构和权重相同的第一特征提取模块和第二特征提取模块，进行图像特征提取；将提取的跟踪目标图像特征和搜索区域图像特征输入到基于交互注意力机制的特征融合模块，进行特征融合；将特征融合模块输出的融合特征输入到分类和回归模块，输出包围框内的图像类别及包围框的位置及尺寸信息，所述图像类别包括前景和背景。 2.根据权利要求1所述的视频目标跟踪方法，其特征在于，在特征提取前还包括：将跟踪目标图像和搜索区域图像分别输入到结构和权重相同的第一图像块编码模块和第二图像块编码模块，将输入图像分割成多个图像块，并将每个图像块中的像素值合成为一个向量。 3.根据权利要求2所述的视频目标跟踪方法，其特征在于，所述第一特征提取模块和第二特征提取模块均采用Tr ansformer自注意力机制，通过结构相似的窗口多头自注意力层和移位窗口多头自注意力层进行自注意力计算提取图像特征；窗口多头自注意力层将特征图划分成大小为M的窗口，并每个窗口上进行自注意力计算；移位窗口多头自注意力层在窗口多头自注意力层的下一层，通过将窗口整体平移1/2个M的大小，在下一层得到新的窗口以提高感受野，并将平移后的小窗口拼接以保证窗口的数目不变。 4.根据权利要求3所述的视频目标跟踪方法，其特征在于，在特征融合前还包括：将第一特征提取模块和第二特征提取模块提取的特征输入到特征级联模块，将提取的两种特征分别拉长为一维向量后进行连接，将特征图由三维数据平铺为一维向量。 5.根据权利要求4所述的视频目标跟踪方法，其特征在于，所述特征融合模块包括编码器和解码器，编码器通过对特征级联模块输出的一维向量进行自注意力计算，实现对两种特征的充分交互；解码器采用交叉注意力机制，通过对跟踪目标图像特征和搜索区域图像特征分别进行加权得到Q、 K、 V，然后利用分别进行本分支和跨分支的注意力计算实现特征融合，其中， Q、 K、 V为三个权重矩阵， dK为K的维度。 6.根据权利要求1所述的视频目标跟踪方法，其特征在于，所述方法还包括：在输入第一帧图像前，基于已知目标信息采用少样本学习方法对网络模型进行离线训练；在输入一定帧图像后，更新目标信息，并采用少样本学习方法对网络模型进行在线更新。 7.一种视频目标跟踪装置，其特征在于，包括：注意力机制特征提取模块，用于将跟踪目标图像和搜索区域图像分别输入到基于注意力机制、结构和权重相同的第一特征提取模块和第二特征提取模块，进行图像特征提取；注意力机制特征融合模块，用于将提取的跟踪目标图像特征和搜索区域图像特征输入到基于交互注意力机制的特征融合模块，进行特征融合；包围框分类回归模块，用于将特征融合模块输出的融合特征输入到分类和回归模块，输出包围框内的图像类别及包围框的位置及尺寸信息，所述图像类别包括前景和背景。 8.根据权利要求7所述的视频目标跟踪装置，其特征在于，在特征提取前还包括：将跟踪目标图像和搜索区域图像分别输入到结构和权重相同的第一图像块编码模块和第二图权　利　要　求　书 1/2 页 2 CN 114708297 A 2像块编码模块，将输入图像分割成多个图像块，并将每个图像块中的像素值合成为一个向量。 9.根据权利要求8所述的视频目标跟踪装置，其特征在于，所述第一特征提取模块和第二特征提取模块均采用Tr ansformer自注意力机制，通过结构相似的窗口多头自注意力层和移位窗口多头自注意力层进行自注意力计算提取图像特征；窗口多头自注意力层将特征图划分成大小为M的窗口，并每个窗口上进行自注意力计算；移位窗口多头自注意力层在窗口多头自注意力层的下一层，通过将窗口整体平移1/2个M的大小，在下一层得到新的窗口以提高感受野，并将平移后的小窗口拼接以保证窗口的数目不变。 10.根据权利要求9所述的视频目标跟踪装置，其特征在于，在特征融合前还包括：将第一特征提取模块和第二特征提取模块提取的特征输入到特征级联模块，将提取的两种特征分别拉长为一维向量后进行连接，将特征图由三维数据平铺为一维向量。权　利　要　求　书 2/2 页 3 CN 114708297 A 3

专利 一种视频目标跟踪方法及装置

专利一种视频目标跟踪方法及装置