专利 一种行为速率引导的视频行为识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210164283.8 (22)申请日 2022.02.22 (71)申请人西安交通大学地址 710049 陕西省西安市咸宁西路28号 (72)发明人杨静　张坤　陈跃海　张栋　李杰　杜少毅　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 专利代理师王艾华 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种行为速率引导的视频行为识别方法 (57)摘要本发明提供了一种行为速率引导的视频行为识别方法，包括： 1)将视频拆分成图像帧，并按高低两个帧率采样； 2)使用卷积神经网络对抽取的图片进行特征提取； 3)将高帧率路径提取的时间特征与低帧率路径的空间特征合并，形成侧向连接； 4)使用基于特征差分的动作感知对时间和通道维度加权； 5)使用一个已经训练的卷积神经网络对训练集识别，求出每个类别动作的行为速率； 6)基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合； 7)对UCF ‑101数据集的行为识别数据进行训练建模，对测试集进行识别得到准确率结果。从实验结果可以看到，本发明针对行为识别在主流数据集上提高了测试结果的精度。权利要求书3页说明书7页附图2页 CN 114550047 A 2022.05.27 CN 114550047 A 1.一种行为速率引导的视频行为识别方法，其特征在于，包括以下步骤：步骤一：将输入的视频拆分成图像帧，并分别按高帧率每秒T帧和低帧率每秒T/8帧均匀抽取图片，其中T＝16；步骤二：使用低层卷积神经网络对抽取的图片进行特征提取，从而得到对应的特征向量，为了方便后续计算，将输入特征向量的维度表示为： X＝[N， C， ωT， W， H] 其中X为输入的特征向量维度， N为输入样本数， C为特征通道数， T为序列长度， ω为一次3D卷积中所取的片段长度， T为序列长度， W和H为特征的宽和高；步骤三：在Res3层特征提取之后，将高帧率路径提取的时间特征与低帧率路径的空间特征合并，形成侧向连接；步骤四：在3D卷积中提出基于特征差分的动作感知，对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权；步骤五：使用一个已经训练的卷积神经网络对训练集识别，求出每个类别动作的行为速率；步骤六：在两个路径的卷积网络提取完特征后，基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合；步骤七：对佛罗里达大学创建的公开数据集UCF ‑101的行为识别数据进行卷积神经网络模型训练，通过反向传播，当损失较大时，不断更新模型参数，直到损失收敛，测试模型的准确率。 2.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤二中，使用3D卷积网络进行特征提取，在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。 3.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤三中，在残差网络的Res3层特征提取之后，将高帧率路径的时间特征通过侧向连接传输到低帧率路径，将高帧率路径提取时序信息与低帧率路径共享，保证了整个网络提取的特征既关注空间信息也关注时间信息。 4.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤四中，为了对动态信息进行加强，使用特征差分的方法，将合并的特征向量作为输入，通过动作感知对时间和通道加权，设输入特征为X， X特征维度X＝[N， C， ωT， W， H]，此处X为一次卷积获得的特征，即ω＝1，可得X＝[N， C， T， W， H]，其中N为输入样本数， ω为一次3D卷积中所取的片段长度， T为序列长度， W和H为特征的宽和高，动作感知的计算公式为：首先，使用一个3D卷积层来降低通道数以提高计算效率 Xk＝conv3D*X 式中： Xk表示通道减少后的特征,Xk特征维度为[N， C/k， T， W， H]， k＝16是减少的比率； conv3D表示使用大小为1的卷积核对通道维度进行降维操作；对于运动特征向量的计算，使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息，即 P(t)＝co nvshift*Xk(t+1)‑Xk(t) 式中： P(t)是时间t时的动作特征向量,特征维度为[N， C/k， 1， W， H]， 1≤t≤T ‑1；权　利　要　求　书 1/3 页 2 CN 114550047 A 2convshift是一个3×32通道卷积层，对每个通道进行转换；假设T时刻动作已经结束，即T时刻已经没有动作特征，令P(T)为零特征向量，在计算出每个时刻的P(t)之后，构造出整个T帧序列的动作矩阵P，通过全局平均池化层激发对动作敏感的通道 Pl＝pool(P) 式中Pl特征维度为[N， C/k， T， W， H]，使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C，再利用Sigmo id函数得到动作感知权值E E＝2Sigmo id(conv3D*Pl)‑1 Sigmoid为S型激活函数，至此，得到了特征向量中各通道的动作相关性权重E，为了不影响原低帧率动作路径的空间特征信息，借鉴ResNet中残差连接的方法，在增强动作信息的同时保留原有的空间信息 XR＝X+X⊙E 式中： XR是该模块的输出； ⊙表示按通道的乘法。 5.根据据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤五中，使用一个已经训练的卷积神经网络对训练集识别，可得到每帧图片的置信度，定义行为速率为置信度图中关键信息占总体信息的占比，即可求出每个类别动作的行为速率，行为速率计算公式为：其中是第m类的行为速率， Nm为第m类的样本数量，为第m类的第n个样本的帧数，为第m类的第n个样本中第t帧的置信度， ReLU为线性激活函数，为第m类的第n个样本的行为周期，计算公式为：其中sgn为符号函数，为第m类的第n个样本中第t帧的相关系数，计算公式为：其中为第m类的第n个样本中第k帧的置信度。 6.根据权利要求1所述的一种行为速率引导的视频行为识别方法，其特征在于，步骤六中，基于步骤四中计算出的各类的行为速率，在两个路径的卷积网络提取完特征后，用对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合，若一个类别的行为速率较大，说明该类别关键信息占总体占比较大，在时间维度分布较分散，这时应增大空间特征的权重，反之亦然，当行为速率较小，说明该类别关键信息较为集中，只有权　利　要　求　书 2/3 页 3 CN 114550047 A 3

专利 一种行为速率引导的视频行为识别方法

专利一种行为速率引导的视频行为识别方法