专利 基于非关键帧扰动的视频序列样本增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221080838 8.2 (22)申请日 2022.07.11 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人柯逍　刘浩　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师丘鸿超　蔡学俊 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 40/10(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06N 3/08(2006.01) (54)发明名称基于非关键帧扰动的视频序列样本增强方法 (57)摘要本发明涉及一种基于非关键帧扰动的视频序列样本增强方法，包括步骤S1：在网络训练过程中，将输入视频序列样本送入视频行人重识别网络模型中，并根据网络输出结果计算损失；步骤S2：对视频序列样本计算其梯度方向；步骤S3：对视频序列中每一个视频帧计算该视频帧下的梯度方向绝对值的总和；步骤S4：根据视频序列中每一帧的总和值，计算获得视频序列中前n_k 个总和值最大的帧的索引，并视为此视频序列中的关键帧；步骤S5：根据关键帧的索引，对视频序列中其他非关键帧进行随机高斯噪声扰动；步骤 S6：经过扰动后的非关键帧替换掉原视频序列中对应索引的帧，构建新的视频序列样本，再次送入视频重识别网络中进行后续训练。权利要求书2页说明书5页附图1页 CN 115205741 A 2022.10.18 CN 115205741 A 1.一种基于非关键帧扰动的视频序列样本增强方法，其特征在于，包括以下步骤：步骤S1：在网络训练过程中，将输入视频序列样本送入视频行人重识别网络模型中，并根据网络输出结果计算损失；步骤S2：对视频序列样本计算其梯度方向；步骤S3：对视频序列中每一个视频帧计算该视频帧下的梯度方向绝对值的总和；步骤S4：根据视频序列中每一帧的总和值，计算获得视频序列中前n_k个总和值最大的帧的索引，并视为此视频序列中的关键帧；步骤S5：根据关键帧的索引，对视频序列中其他非关键帧进行随机高斯噪声扰动；步骤S6：经过扰动后的非关键帧替换掉原视频序列中对应索引的帧，构建新的视频序列样本，再次送入视频重识别网络中进行后续训练。 2.根据权利要求1所述的基于非关键帧扰动的视频序列样本增强方法，其特征在于，步骤S1具体为：步骤S11：在网络训练过程中，将输入视频序列样本n_x送入视频行人重识别网络模型中，由网络模型中的分类器获得分类分数n_α，其中n_x的形状为5维张量，分别是批次，帧数，通道数，高度，宽度；步骤S12：根据分类分数n_α和视频序列样本类别标签值n_y，通过交叉熵损失函数计算损失，并进行损失反向传播，公式如下所示：其中是n_α 的梯度， J()是交叉熵损失函数， model_θ表示网络参数。 3.根据权利要求1所述的基于非关键帧扰动的视频序列样本增强方法，其特征在于，步骤S2具体为，对视频序列样本计算其梯度方向n_v，公式如下所示，其中n_v的形状如输入视频序列样本n_x， sign()表示对梯度方向进行符号计算，对于大于0的梯度，输出为1，对于小于0的梯度，输出为 ‑1，对于等于 0的梯度，输出为0： 4.根据权利要求1所述的基于非关键帧扰动的视频序列样本增强方法，其特征在于，步骤S3具体为，对视频序列中每一个视频帧计算该视频帧下的梯度方向n_v绝对值的总和，公式如下所示， abs()表示对输入的梯度方向n_v的值取绝对值， sum()表示对输入的梯度方向n_v的绝对值求和， dim表示sum()选择的维度， dim＝[2， 3， 4]表示选择通道数，高度，宽度； sumn_v＝sum(abs(n_v) )， dim＝[2， 3， 4]。 5.根据权利要求1所述的基于非关键帧扰动的视频序列样本增强方法，其特征在于，步骤S4具体为，根据视频序列中每一帧的总和值sumn_v，计算获得视频序列中前n_k个总和值最大的帧的索引k eyindex，并将索引对应的帧视为此视频序列中的关键帧，其余为非关键帧，公式如下所示， topk()表示获取sumn_v中前n_k个最值， dim表示topk()选择的维度， dim＝ [1]表示根据每个批次的求和结果进行排序； keyindex＝topk(sumn_v)， dim＝[1]。 6.根据权利要求1所述的基于非关键帧扰动的视频序列样本增强方法，其特征在于，步骤S5中，根据关键帧的索引ke yindex，对视频序列中其他非关键帧进行随机高斯噪声扰动，公权　利　要　求　书 1/2 页 2 CN 115205741 A 2式如下所示，其中随机高斯噪声noise_δ服从一个数学期望为μ、标准方差为σ2的高斯分布 N，形状大小如视频序列n_x， zero_l ike()表示生成与输入数据形状相同的全0的数据： noise_ δ～N( μ， σ2) noise_ δ[keyindex]＝zero_l ike(noise_ δ[keyindex])。 7.根据权利要求1所述的基于非关键帧扰动的视频序列样本增强方法，其特征在于，步骤S6具体为，经过扰动后的非关键帧替换掉原视频序列n_x中对应索引的帧，构建新的视频序列样本其中noise_δ 中全0部分表示对应的帧为关键帧，不进行扰动，公式如下所示，新的视频序列样本送入视频行人重识别网络中进行后续训练： 8.一种基于非关键帧扰动的视频序列样本增强系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1 ‑7其中任一所述的方法。 9.一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1 ‑7其中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115205741 A 3

专利 基于非关键帧扰动的视频序列样本增强方法

专利基于非关键帧扰动的视频序列样本增强方法