iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210256181.9 (22)申请日 2022.03.15 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 马彩虹 王冠皓  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 杨静 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) H04N 21/439(2011.01) H04N 21/44(2011.01) H04N 21/466(2011.01) G10L 25/24(2013.01) G10L 25/51(2013.01) (54)发明名称 动作检测方法、 动作检测装置、 电子设备以 及存储介质 (57)摘要 本公开提供了一种动作检测方法、 动作检测 装置、 电子设备以及存储介质, 涉及人工智 能技 术领域, 尤其涉及计算机视觉和深度学习技术领 域。 具体实现方案为: 对目标资源的多个目标帧 数据进行特征提取, 得到至少一个目标特征数 据; 对至少一个目标特征数据进行时序动作提 名, 得到至少一个第一候选动作提名信息, 其中, 第一候选动作提名信息包括第一候选动作提名 区间; 对与至少一个第一候选动作提名区间对应 的目标特征数据进行分类, 得到与至少一个第一 候选动作提名区间对应的至少一个 分类置信度; 根据与第一候选动作提名区间对应的至少一个 分类置信度, 确定目标资源包括的至少一个动作 片段的动作检测结果, 其中, 动作检测结果包括 动作类别和动作时段。 权利要求书5页 说明书17页 附图7页 CN 114627556 A 2022.06.14 CN 114627556 A 1.一种动作检测方法, 包括: 对目标资源的多个目标帧数据进行 特征提取, 得到 至少一个目标 特征数据; 对所述至少一个目标特征数据进行时序动作提名, 得到至少一个第 一候选动作提名信 息, 其中, 所述第一 候选动作提名信息包括第一 候选动作提名区间; 对与至少一个所述第 一候选动作提名区间对应的目标特征数据进行分类, 得到与至少 一个所述第一 候选动作提名区间对应的至少一个分类置信度; 以及 根据与第一所述候选动作提名区间对应的至少一个分类置信度, 确定所述目标资源包 括的至少一个动作片段的动作检测结果, 其中, 所述动作检测结果包括动作类别和动作时 段。 2.根据权利要求1所述的方法, 其中, 所述根据与第 一所述候选动作提名区间对应的至 少一个分类置信度, 确定所述目标资源 包括的至少一个动作片段的动作检测结果, 包括: 根据与至少一个所述第 一候选动作提名区间对应的至少一个分类置信度, 确定与至少 一个所述第一 候选动作区间对应的目标分类置信度; 根据与至少一个所述第 一候选动作提名区间对应的目标分类置信度, 从至少一个所述 第一候选动作提名区间中确定 至少一个第二 候选动作提名区间; 基于第一非极大抑制方法, 根据所述至少一个第二候选动作提名区间, 得到至少一个 第三候选动作提名区间; 以及 根据所述至少一个第三候选动作提名区间和与所述至少一个第三候选动作提取区间 对应的目标分类置信度所表征的动作类别, 确定所述目标资源包括的至少一个动作片段的 动作检测结果。 3.根据权利要求2所述的方法, 其中, 所述根据与至少一个所述第 一候选动作提名区间 对应的目标分类置信度, 从至少一个所述第一候选动作提名区间中确定至少一个第二候选 动作提名区间, 包括: 针对至少一个所述第 一候选动作提名区间中的每个第 一候选动作提名区间, 在确定与 所述第一候选动作提名区间对应的目标分类置信度大于或等于预定 分类置信度的情况下, 确定所述第一 候选动作提名区间为所述第二 候选动作提名区间。 4.根据权利要求2所述的方法, 其中, 所述根据与至少一个所述第 一候选动作提名区间 对应的目标分类置信度, 从至少一个所述第一候选动作提名区间中确定至少一个第二候选 动作提名区间, 包括: 对与至少一个所述第 一候选动作提名区间对应的目标分类置信度进行排序, 得到排序 结果; 以及 根据所述排序 结果, 从至少一个所述第 一候选动作提名区间中确定所述至少一个第 二 候选动作提名区间。 5.根据权利要求1~4中任一项所述的方法, 其中, 所述第一候选动作提名区间包括第 一候选动作开始时刻和第一 候选动作结束时刻; 其中, 所述第 一候选动作提名信 息还包括与所述第 一候选动作开始时刻对应的第 一置 信度和与所述第一 候选动作结束时刻对应的第二置信度; 其中, 所述根据与至少一个所述第一候选动作提名区间对应的至少一个分类置信度, 确定所述目标资源 包括的至少一个动作片段的动作检测结果, 包括:权 利 要 求 书 1/5 页 2 CN 114627556 A 2根据与至少一个所述第一候选动作提名区间对应的至少一个分类置信度和完整性置 信度, 得到与至少一个所述第一候选动作提名区间对应的至少一个置信度, 其中, 所述完整 性置信度是根据与所述第一候选动作提名区间对应的第一置信度和第二置信度确定的; 以 及 根据与至少一个所述第 一候选动作提名区间对应的至少一个置信度, 确定所述目标资 源包括的至少一个动作片段的动作检测结果。 6.根据权利要求1~5中任一项所述的方法, 其中, 所述对与至少一个所述第一候选动 作提名区间对应的目标特征数据进行分类, 得到与至少一个所述第一候选动作提名区间对 应的至少一个分类置信度, 包括: 利用动作分类模型处理与至少一个所述第 一候选动作提名区间对应的目标特征数据, 得到与至少一个所述第一 候选动作提名区间对应的至少一个分类置信度, 其中, 所述动作分类模型是利用输出值训练预定时序动作分类模型得到的, 所述输出 值是基于损失函数, 根据与多个样本动作片段对应的真实动作类别、 预测动作类别和完整 性评估值确定的, 所述完整性评估值用于 评估所述样本动作片段的完整性。 7.根据权利要求1~6中任一项所述的方法, 其中, 所述目标资源 包括目标视频; 其中, 所述对目标资源的多个目标帧数据进行特征提取, 得到至少一个目标特征数据, 包括: 对所述目标视频的多个目标视频帧数据进行图像特征提取, 得到至少一个目标图像特 征数据; 对所述目标视频的多个目标视频帧数据进行音频特征提取, 得到至少一个目标音频特 征数据; 以及 对所述至少一个目标图像特征数据和所述至少一个目标音频特征数据进行融合, 得到 所述至少一个目标 特征数据。 8.根据权利要求7所述的方法, 其中, 所述对所述目标视频的多个目标视频帧数据进行 图像特征提取, 得到 至少一个目标图像特 征数据, 包括: 利用图像特征提取模型处理所述目标视频的多个目标视频帧数据, 得到所述至少一个 目标图像特 征数据, 其中, 所述图像特 征提取模型 是对预定 视频理解模型进行训练得到的。 9.根据权利要求1~8中任一项所述的方法, 其中, 所述对所述至少一个目标特征数据 进行时序动作提名, 得到 至少一个第一 候选动作提名信息, 包括: 利用时序动作提名模型处理所述至少一个目标特征数据, 得到所述至少一个第 一候选 动作提名信息 。 10.根据权利要求9所述的方法, 其中, 所述利用时序动作提名模型处理所述至少一个 目标特征数据, 得到所述至少一个第一 候选动作提名信息, 包括: 将所述多个目标帧数据进行划分, 得到多个目标帧序列数据, 其中, 相邻两个所述目标 帧序列数据包括相同的所述目标帧数据; 对与所述多个目标帧序列 数据对应的目标特征数据进行时序动作提名, 得到与所述多 个目标帧数据对应的至少一个第二 候选动作提名信息; 以及 根据与所述多个目标帧数据对应的至少一个第 二候选动作提名信 息, 得到所述至少一 个第一候选动作提名信息 。权 利 要 求 书 2/5 页 3 CN 114627556 A 3

.PDF文档 专利 动作检测方法、动作检测装置、电子设备以及存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 动作检测方法、动作检测装置、电子设备以及存储介质 第 1 页 专利 动作检测方法、动作检测装置、电子设备以及存储介质 第 2 页 专利 动作检测方法、动作检测装置、电子设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:20:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。