iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210164283.8 (22)申请日 2022.02.22 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 (72)发明人 杨静 张坤 陈跃海 张栋 李杰  杜少毅  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 王艾华 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种行为速率引导的视频行为识别方法 (57)摘要 本发明提供了一种行为速率引导的视频行 为识别方法, 包括: 1)将视频拆分成图像帧, 并按 高低两个帧率采样; 2)使用卷积神经网络对抽取 的图片进行特征提取; 3)将高帧率路径提取的时 间特征与低帧率路径的空间特征合并, 形成侧向 连接; 4)使用基于特征差分的动作感知对时间和 通道维度加权; 5)使用一个已经训练的卷积神经 网络对训练集识别, 求出每个类别动作的行为速 率; 6)基于 行为速率对高帧率路径提取出的时间 特征和低 帧率路径提取出的空间特征进行倾向 性融合; 7)对UCF ‑101数据集的行为识别数据进 行训练建模, 对测试集进行识别得到准确率结 果。 从实验结果可 以看到, 本发明针对行为识别 在主流数据集上提高了测试 结果的精度。 权利要求书3页 说明书7页 附图2页 CN 114550047 A 2022.05.27 CN 114550047 A 1.一种行为速率引导的视频 行为识别方法, 其特 征在于, 包括以下步骤: 步骤一: 将输入的视频拆分成图像帧, 并分别按高帧率每秒T帧和低帧率每秒T/8帧均 匀抽取图片, 其中T=16; 步骤二: 使用低层卷积神经网络对抽取的图片进行特征提取, 从而得到对应的特征向 量, 为了方便后续计算, 将输入特 征向量的维度表示 为: X=[N, C, ωT, W, H] 其中X为输入 的特征向量维度, N为输入样本数, C为特征通道数, T为序列长度, ω为一 次3D卷积中所 取的片段长度, T为序列长度, W和H为特 征的宽和高; 步骤三: 在Res3层特征提取之后, 将高帧率路径提取的时间特征与低帧率路径的空间 特征合并, 形成侧向连接; 步骤四: 在3D卷积中提出基于特征差分的动作感知, 对合并后的特征使用基于特征差 分的动作感知对时间和通道维度加权; 步骤五: 使用一个已经训练的卷积神经网络对训练集识别, 求出每个类别动作的行为 速率; 步骤六: 在两个路径的卷积网络提取完特征后, 基于行为速率对高帧率路径提取出的 时间特征和低帧率路径提取 出的空间特 征进行倾向性融合; 步骤七: 对佛罗里达大学创建的公开数据集UCF ‑101的行为识别数据进行卷积神经网 络模型训练, 通过反向传播, 当损失较大时, 不断更新模型参数, 直到损失收敛, 测试模型的 准确率。 2.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤二 中, 使用3D卷积网络进 行特征提取, 在保留ResNet残差结构的基础上, 在卷积核增加了时间 维度, 卷积核不止在2D空间的滑动, 还在时间维度上移动, 从而提取帧间的关联 特征。 3.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤三 中, 在残差网络的Res3层特征提取之后, 将高帧率路径的时间特征通过侧向连接传输到低 帧率路径, 将 高帧率路径提取时序信息与低帧率路径共享, 保证了整个网络提取 的特征既 关注空间信息也关注时间信息 。 4.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤四 中, 为了对动态信息进行加强, 使用特征差分的方法, 将合并的特征向量作为输入, 通过动 作感知对时间和通道加权, 设输入特征为X, X特征维度X=[N, C, ωT, W, H], 此处X为一次卷 积获得的特征, 即ω=1, 可得X=[N, C, T, W, H], 其中N为输入样本数, ω为一次3D卷积中所 取的片段长度, T为序列长度, W和H为特 征的宽和高, 动作感知的计算公式为: 首先, 使用一个3D卷积层来降低通道数以提高计算效率 Xk=conv3D*X 式中: Xk表示通道减少后的特征,Xk特征维度为[N, C/k, T, W, H], k=16是减少的比率; conv3D表示使用大小为1的卷积核对通道维度进行降维操作; 对于运动特征向量的计算, 使用前后两 帧图片对应特征Xk(t+1)和Xk(t)之间的差来表 示运动信息, 即 P(t)=co nvshift*Xk(t+1)‑Xk(t) 式中: P(t)是时间t时的动作特征向量,特征维度为[N, C/k, 1, W, H], 1≤t≤T ‑1;权 利 要 求 书 1/3 页 2 CN 114550047 A 2convshift是一个3×32通道卷积层, 对每 个通道进行转换; 假设T时刻动作已经结束, 即T时刻已经没有动作特征, 令P(T)为零特征向量, 在计算出 每个时刻的P(t)之后, 构造出整个T帧序列的动作矩阵P, 通过全局平均池化层激发对动作 敏感的通道 Pl=pool(P) 式中Pl特征维度为[N, C/k, T, W, H], 使用3D卷积层将动作 特征的通道维度C/k扩展到原 始通道维度C, 再利用Sigmo id函数得到动作感知权值E E=2Sigmo id(conv3D*Pl)‑1 Sigmoid为S型激活函数, 至此, 得到了特征向量中各通道的动作相关性权重E, 为了不 影响原低帧率动作路径的空间特征信息, 借鉴ResNet中残差连接的方法, 在增强动作信息 的同时保留原有的空间信息 XR=X+X⊙E 式中: XR是该模块的输出; ⊙表示按通道的乘法。 5.根据据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤 五中, 使用一个已经训练的卷积神经网络对训练集识别, 可得到每帧图片的置信度, 定义行 为速率为置信度图中关键信息占总体信息的占比, 即可求出每个类别动作的行为速率, 行 为速率计算公式为: 其中 是第m类的行为速率, Nm为第m类的样本数量, 为第m类的第n个样本的帧数, 为第m类的第n个样本中第t帧的置信度, ReLU为线性激活函数, 为第m类的第n个样 本的行为周期, 计算公式为: 其中sgn为符号函数, 为第m类的第n个样本中第t帧的相关系数, 计算公式为: 其中 为第m类的第n个样本中第k帧的置信度。 6.根据权利要求1所述的一种行为速率引导的视频行为识别方法, 其特征在于, 步骤六 中, 基于步骤四中计算出的各类的行为速率, 在两个路径的卷积网络提取完特征后, 用 对高帧率路径提取出的时间特征和 低帧率路径提取出的空间特征进行倾向性融合, 若一个 类别的行为速率较大, 说明该类别关键信息占总体占比较大, 在时间维度分布较分散, 这时 应增大空间特征 的权重, 反之亦然, 当行为速率较小, 说明该类别关键信息较为集中, 只有权 利 要 求 书 2/3 页 3 CN 114550047 A 3

.PDF文档 专利 一种行为速率引导的视频行为识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种行为速率引导的视频行为识别方法 第 1 页 专利 一种行为速率引导的视频行为识别方法 第 2 页 专利 一种行为速率引导的视频行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:19:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。