(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210765837.X
(22)申请日 2022.07.01
(71)申请人 天津大学
地址 300072 天津市南 开区卫津路9 2号
申请人 北京中科闻歌科技股份有限公司
(72)发明人 冯伟 颜昊旻 韩瑞泽 赵菲菲
张鹏
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 李林娟
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)G06V 20/52(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于弱监督学习的多对象场景时空动作定
位方法及装置
(57)摘要
本发明公开了一种基于弱监督学习的多对
象场景时空动作定位方法及装置, 计算原始数据
集中的个体集的多个体包 标签, 并通过个体的特
征向量计算出动作预测结果, 计算多个体包 标签
与动作预测结果间的交叉熵损失; 对于帧t寻找
与其在一定范围内的临近帧, 以阈值进行筛选,
对合格的个体生成伪标签, 考察无标签个体, 计
算其最大预测值与最可能的标签值之间的交叉
熵损失, 以阈值为标准进行筛选, 将合格的个体
新增为锚定 个体; 综合考虑交叉熵损失函数, 以
作为总损失函数, 利用原始训练集以及伪标签
后的新数据集进行参数更新, 在完成指定轮训练
后停止; 将待识别视频分解为若干帧, 将其逐帧
输入训练完成的网络中进行动作识别, 输出视频
帧中所有个 体的动作类别。
权利要求书2页 说明书8页 附图1页
CN 115147925 A
2022.10.04
CN 115147925 A
1.一种基于弱监 督学习的多对象场景时空动作定位方法, 其特 征在于, 所述方法包括:
使用卷积神经网络作为特征提取网络, 对视频进行逐帧的特征提取, 对每个视频帧进
行目标对象特 征提取通过全连接层输出 所有个体的特征向量;
计算原始数据集中的个体集 XM的多个体包标签
并通过个体的特征向量计 算出动作预
测结果
计算多个 体包标签
与动作预测结果
间的交叉熵损失;
对于帧t寻找与其在一定范围内的临近帧, 以阈值ξt进行筛选, 对合格的个体生成伪标
签, 考察无标签个体x, 计算其最大预测值
与最可能的标签值
之间的交叉熵损失c, 以阈
值ξa, ξc为标准进行筛 选, 将合格的个 体新增为锚定个 体;
综合考虑交叉熵损失函数, 以
作为总损失函数, 利用原始训练集以及伪标签后的新数
据集进行参数 更新, 在完成指定轮训练后停止;
将待识别视频分解为若干帧, 将其逐帧输入训练完成的网络中进行动作识别, 输出视
频帧中所有个 体的动作类别。
2.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特
征在于, 所述计算原始数据集中的个体集XM的多个体包标签
并通过个体的特征向量计算
出动作预测结果
具体为:
将M个具有标签的个体XM={x1,x2,…,xM}组成的整体标记为多个体包
多个体包
的
标签
由下式得 出:
其中, ym表示个体xm的动作标签,
表示对应元 素逐个做或运 算;
对于具有M个个体的包
计算多个体包级的动作 预测结果
K表示动作类别数
量, 预测结果可由下式得 出:
其中, φ表示聚合函数; pm∈R1×K表示个体xm的动作预测结果, 通过带有RoIAlign的
Inception‑v3网络得到 。
3.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特
征在于, 所述方法还 包括: 对动作预测结果
进行训练, 具体为:
计算最小损失
其中, 在计算
时聚合函数φ采用mi n‑pooling函数;
计算中间损失
其中,
表示预测值 不在最大损失、 最小损失中的个 体集合, U函数定义 为:权 利 要 求 书 1/2 页
2
CN 115147925 A
2其中, c1,c2∈[0,1], d>0为预 先设定好的参数;
最终, 改进的多个 体损失函数
表示为:
其中, 参数α 、 β用于平衡不同的情况, 总损失函数在各个包
上求和得到;
对于矩阵P引入不确定量
计算多个 体包损失
4.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特
征在于, 所述以阈值ξt进行筛选为:
对于一锚定个体qt, 假定其标签为动作k, 对于相邻帧t ‑1, 若同一个体qt‑1的预测动作类
别同样为k, 且相应的预测分数大于阈值ξt, 则对于未标注个体qt‑1生成动作类别为k的伪标
签, 并将其加入训练集, 用同样的方法在[t ‑R,t+R]的区间内逐帧的将单帧的标注扩展为多
帧的标注。
5.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特
征在于, 所述以阈值ξa, ξc为标准进行筛 选阈值为:
对于某一无标签个体xn, 在其所有动作类别的预测分当中类别k的预测分
最高, 计算
预测可信度 c, c为预测值
与最可能的标签值
之间的交叉熵损失; 当且仅当预测值
与
可信度c满足以下关系时, 增 加个体xn作为锚定个 体:
and c>ξc
其中, ξa, ξc为阈值参数。
6.一种基于弱监督学习的多对象场景时空动作定位装置, 其特征在于, 所述装置包括:
处理器和存储器, 所述存储器中存储有程序指令, 所述处理器调用存储器中存储的程序指
令以使装置执 行权利要求1 ‑5中的任一项所述的方法步骤。权 利 要 求 书 2/2 页
3
CN 115147925 A
3
专利 基于弱监督学习的多对象场景时空动作定位方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:17:24上传分享