(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210164283.8
(22)申请日 2022.02.22
(71)申请人 西安交通大 学
地址 710049 陕西省西安市咸宁西路28号
(72)发明人 杨静 张坤 陈跃海 张栋 李杰
杜少毅
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 王艾华
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种行为速率引导的视频行为识别方法
(57)摘要
本发明提供了一种行为速率引导的视频行
为识别方法, 包括: 1)将视频拆分成图像帧, 并按
高低两个帧率采样; 2)使用卷积神经网络对抽取
的图片进行特征提取; 3)将高帧率路径提取的时
间特征与低帧率路径的空间特征合并, 形成侧向
连接; 4)使用基于特征差分的动作感知对时间和
通道维度加权; 5)使用一个已经训练的卷积神经
网络对训练集识别, 求出每个类别动作的行为速
率; 6)基于 行为速率对高帧率路径提取出的时间
特征和低 帧率路径提取出的空间特征进行倾向
性融合; 7)对UCF ‑101数据集的行为识别数据进
行训练建模, 对测试集进行识别得到准确率结
果。 从实验结果可 以看到, 本发明针对行为识别
在主流数据集上提高了测试 结果的精度。
权利要求书3页 说明书7页 附图2页
CN 114550047 A
2022.05.27
CN 114550047 A
1.一种行为速率引导的视频 行为识别方法, 其特 征在于, 包括以下步骤:
步骤一: 将输入的视频拆分成图像帧, 并分别按高帧率每秒T帧和低帧率每秒T/8帧均
匀抽取图片, 其中T=16;
步骤二: 使用低层卷积神经网络对抽取的图片进行特征提取, 从而得到对应的特征向
量, 为了方便后续计算, 将输入特 征向量的维度表示 为:
X=[N, C, ωT, W, H]
其中X为输入 的特征向量维度, N为输入样本数, C为特征通道数, T为序列长度, ω为一
次3D卷积中所 取的片段长度, T为序列长度, W和H为特 征的宽和高;
步骤三: 在Res3层特征提取之后, 将高帧率路径提取的时间特征与低帧率路径的空间
特征合并, 形成侧向连接;
步骤四: 在3D卷积中提出基于特征差分的动作感知, 对合并后的特征使用基于特征差
分的动作感知对时间和通道维度加权;
步骤五: 使用一个已经训练的卷积神经网络对训练集识别, 求出每个类别动作的行为
速率;
步骤六: 在两个路径的卷积网络提取完特征后, 基于行为速率对高帧率路径提取出的
时间特征和低帧率路径提取 出的空间特 征进行倾向性融合;
步骤七: 对佛罗里达大学创建的公开数据集UCF ‑101的行为识别数据进行卷积神经网
络模型训练, 通过反向传播, 当损失较大时, 不断更新模型参数, 直到损失收敛, 测试模型的
准确率。
2.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤二
中, 使用3D卷积网络进 行特征提取, 在保留ResNet残差结构的基础上, 在卷积核增加了时间
维度, 卷积核不止在2D空间的滑动, 还在时间维度上移动, 从而提取帧间的关联 特征。
3.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤三
中, 在残差网络的Res3层特征提取之后, 将高帧率路径的时间特征通过侧向连接传输到低
帧率路径, 将 高帧率路径提取时序信息与低帧率路径共享, 保证了整个网络提取 的特征既
关注空间信息也关注时间信息 。
4.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤四
中, 为了对动态信息进行加强, 使用特征差分的方法, 将合并的特征向量作为输入, 通过动
作感知对时间和通道加权, 设输入特征为X, X特征维度X=[N, C, ωT, W, H], 此处X为一次卷
积获得的特征, 即ω=1, 可得X=[N, C, T, W, H], 其中N为输入样本数, ω为一次3D卷积中所
取的片段长度, T为序列长度, W和H为特 征的宽和高, 动作感知的计算公式为:
首先, 使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中: Xk表示通道减少后的特征,Xk特征维度为[N, C/k, T, W, H], k=16是减少的比率;
conv3D表示使用大小为1的卷积核对通道维度进行降维操作;
对于运动特征向量的计算, 使用前后两 帧图片对应特征Xk(t+1)和Xk(t)之间的差来表
示运动信息, 即
P(t)=co nvshift*Xk(t+1)‑Xk(t)
式中: P(t)是时间t时的动作特征向量,特征维度为[N, C/k, 1, W, H], 1≤t≤T ‑1;权 利 要 求 书 1/3 页
2
CN 114550047 A
2convshift是一个3×32通道卷积层, 对每 个通道进行转换;
假设T时刻动作已经结束, 即T时刻已经没有动作特征, 令P(T)为零特征向量, 在计算出
每个时刻的P(t)之后, 构造出整个T帧序列的动作矩阵P, 通过全局平均池化层激发对动作
敏感的通道
Pl=pool(P)
式中Pl特征维度为[N, C/k, T, W, H], 使用3D卷积层将动作 特征的通道维度C/k扩展到原
始通道维度C, 再利用Sigmo id函数得到动作感知权值E
E=2Sigmo id(conv3D*Pl)‑1
Sigmoid为S型激活函数, 至此, 得到了特征向量中各通道的动作相关性权重E, 为了不
影响原低帧率动作路径的空间特征信息, 借鉴ResNet中残差连接的方法, 在增强动作信息
的同时保留原有的空间信息
XR=X+X⊙E
式中: XR是该模块的输出; ⊙表示按通道的乘法。
5.根据据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤
五中, 使用一个已经训练的卷积神经网络对训练集识别, 可得到每帧图片的置信度, 定义行
为速率为置信度图中关键信息占总体信息的占比, 即可求出每个类别动作的行为速率, 行
为速率计算公式为:
其中
是第m类的行为速率, Nm为第m类的样本数量,
为第m类的第n个样本的帧数,
为第m类的第n个样本中第t帧的置信度, ReLU为线性激活函数,
为第m类的第n个样
本的行为周期, 计算公式为:
其中sgn为符号函数,
为第m类的第n个样本中第t帧的相关系数, 计算公式为:
其中
为第m类的第n个样本中第k帧的置信度。
6.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤六
中, 基于步骤四中计算出的各类的行为速率, 在两个路径的卷积网络提取完特征后, 用
对高帧率路径提取出的时间特征和 低帧率路径提取出的空间特征进行倾向性融合, 若一个
类别的行为速率较大, 说明该类别关键信息占总体占比较大, 在时间维度分布较分散, 这时
应增大空间特征 的权重, 反之亦然, 当行为速率较小, 说明该类别关键信息较为集中, 只有权 利 要 求 书 2/3 页
3
CN 114550047 A
3
专利 一种行为速率引导的视频行为识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:19:24上传分享