iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210765837.X (22)申请日 2022.07.01 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 申请人 北京中科闻歌科技股份有限公司 (72)发明人 冯伟 颜昊旻 韩瑞泽 赵菲菲  张鹏  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 李林娟 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06V 20/52(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于弱监督学习的多对象场景时空动作定 位方法及装置 (57)摘要 本发明公开了一种基于弱监督学习的多对 象场景时空动作定位方法及装置, 计算原始数据 集中的个体集的多个体包 标签, 并通过个体的特 征向量计算出动作预测结果, 计算多个体包 标签 与动作预测结果间的交叉熵损失; 对于帧t寻找 与其在一定范围内的临近帧, 以阈值进行筛选, 对合格的个体生成伪标签, 考察无标签个体, 计 算其最大预测值与最可能的标签值之间的交叉 熵损失, 以阈值为标准进行筛选, 将合格的个体 新增为锚定 个体; 综合考虑交叉熵损失函数, 以 作为总损失函数, 利用原始训练集以及伪标签 后的新数据集进行参数更新, 在完成指定轮训练 后停止; 将待识别视频分解为若干帧, 将其逐帧 输入训练完成的网络中进行动作识别, 输出视频 帧中所有个 体的动作类别。 权利要求书2页 说明书8页 附图1页 CN 115147925 A 2022.10.04 CN 115147925 A 1.一种基于弱监 督学习的多对象场景时空动作定位方法, 其特 征在于, 所述方法包括: 使用卷积神经网络作为特征提取网络, 对视频进行逐帧的特征提取, 对每个视频帧进 行目标对象特 征提取通过全连接层输出 所有个体的特征向量; 计算原始数据集中的个体集 XM的多个体包标签 并通过个体的特征向量计 算出动作预 测结果 计算多个 体包标签 与动作预测结果 间的交叉熵损失; 对于帧t寻找与其在一定范围内的临近帧, 以阈值ξt进行筛选, 对合格的个体生成伪标 签, 考察无标签个体x, 计算其最大预测值 与最可能的标签值 之间的交叉熵损失c, 以阈 值ξa, ξc为标准进行筛 选, 将合格的个 体新增为锚定个 体; 综合考虑交叉熵损失函数, 以 作为总损失函数, 利用原始训练集以及伪标签后的新数 据集进行参数 更新, 在完成指定轮训练后停止; 将待识别视频分解为若干帧, 将其逐帧输入训练完成的网络中进行动作识别, 输出视 频帧中所有个 体的动作类别。 2.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特 征在于, 所述计算原始数据集中的个体集XM的多个体包标签 并通过个体的特征向量计算 出动作预测结果 具体为: 将M个具有标签的个体XM={x1,x2,…,xM}组成的整体标记为多个体包 多个体包 的 标签 由下式得 出: 其中, ym表示个体xm的动作标签, 表示对应元 素逐个做或运 算; 对于具有M个个体的包 计算多个体包级的动作 预测结果 K表示动作类别数 量, 预测结果可由下式得 出: 其中, φ表示聚合函数; pm∈R1×K表示个体xm的动作预测结果, 通过带有RoIAlign的 Inception‑v3网络得到 。 3.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特 征在于, 所述方法还 包括: 对动作预测结果 进行训练, 具体为: 计算最小损失 其中, 在计算 时聚合函数φ采用mi n‑pooling函数; 计算中间损失 其中, 表示预测值 不在最大损失、 最小损失中的个 体集合, U函数定义 为:权 利 要 求 书 1/2 页 2 CN 115147925 A 2其中, c1,c2∈[0,1], d>0为预 先设定好的参数; 最终, 改进的多个 体损失函数 表示为: 其中, 参数α 、 β用于平衡不同的情况, 总损失函数在各个包 上求和得到; 对于矩阵P引入不确定量 计算多个 体包损失 4.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特 征在于, 所述以阈值ξt进行筛选为: 对于一锚定个体qt, 假定其标签为动作k, 对于相邻帧t ‑1, 若同一个体qt‑1的预测动作类 别同样为k, 且相应的预测分数大于阈值ξt, 则对于未标注个体qt‑1生成动作类别为k的伪标 签, 并将其加入训练集, 用同样的方法在[t ‑R,t+R]的区间内逐帧的将单帧的标注扩展为多 帧的标注。 5.根据权利要求1所述的一种基于弱监督学习的多对象场景时空动作定位方法, 其特 征在于, 所述以阈值ξa, ξc为标准进行筛 选阈值为: 对于某一无标签个体xn, 在其所有动作类别的预测分当中类别k的预测分 最高, 计算 预测可信度 c, c为预测值 与最可能的标签值 之间的交叉熵损失; 当且仅当预测值 与 可信度c满足以下关系时, 增 加个体xn作为锚定个 体: and c>ξc 其中, ξa, ξc为阈值参数。 6.一种基于弱监督学习的多对象场景时空动作定位装置, 其特征在于, 所述装置包括: 处理器和存储器, 所述存储器中存储有程序指令, 所述处理器调用存储器中存储的程序指 令以使装置执 行权利要求1 ‑5中的任一项所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 115147925 A 3

PDF文档 专利 基于弱监督学习的多对象场景时空动作定位方法及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于弱监督学习的多对象场景时空动作定位方法及装置 第 1 页 专利 基于弱监督学习的多对象场景时空动作定位方法及装置 第 2 页 专利 基于弱监督学习的多对象场景时空动作定位方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:17:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。