iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210166453.6 (22)申请日 2022.02.23 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 陈长汶 刘烨 单瀛 李思远  伍洋 郄小虎  (74)专利代理 机构 深圳翼盛智成知识产权事务 所(普通合伙) 44300 专利代理师 李玉婷 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种视频检测方法、 系统及存储介质和服务 器 (57)摘要 本发明实施例公开了一种视频检测方法、 系 统及存储介质和服务器, 应用于基于人工智能的 信息处理技术领域。 视频检测系统会将目标视频 分为多个模态的目标检测数据, 分别获取到对应 的单模态注 意特征, 再将这些单模态注意特征进 行融合得到目标视频的全局特征, 然后获取到全 局特征与特定检测 信息之间的相似性特征信息, 并基于相似性特征信息确定与特定检测信息相 关的视频片段。 这样通过对各个模态的目标检测 数据的单独处理, 可以较精确地获取目标视频中 包含的所有类型的信息, 进而将各个单模态注意 特征融合得到的全局特征能更真实地反映目标 视频, 最终确定的视频片段也更准确。 权利要求书3页 说明书14页 附图10页 CN 114581821 A 2022.06.03 CN 114581821 A 1.一种视频检测方法, 其特 征在于, 包括: 获取目标视频包 含的多个模态的目标检测数据, 及获取 特定检测信息; 获取所述多个模态的目标检测数据分别对应的单模态 注意特征; 将所述多个模态的目标检测数据分别对应的单模态注意特征进行融合, 得到所述目标 视频的全局特 征; 获取所述全局特 征与特定检测信息之间的相似性特 征信息; 根据所述相似性特 征信息确定所述目标视频中与所述特定检测信息相关的视频片段。 2.如权利要求1所述的方法, 其特征在于, 所述获取所述多个模态的目标检测数据分别 对应的单模态 注意特征, 具体包括: 提取所述目标检测数据的特 征信息; 将所述特征信息中各个子特征的加权值进行融合后得到所述目标检测数据的单模态 注意特征。 3.如权利要求1所述的方法, 其特征在于, 所述将所述多个模态的目标检测数据分别对 应的单模态 注意特征进行融合, 得到所述目标视频的全局特 征, 具体包括: 将所述多个模态的目标检测数据对应的单模态注意特征分别压缩到低维度特征空间, 得到多个低维度特 征; 将所述多个低维度特 征进行融合, 得到融合后特 征; 将所述融合后特征扩展到 高维度特征空间, 得到的高维度融合特征即为所述目标视频 的全局特 征, 所述高维度特 征空间的维度与所述单模态 注意特征的维度一 致。 4.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述相似性特征信息确定所述目标视频中所包括的各个子片段的高光显著性分 数。 5.如权利要求1至4任一项所述的方法, 其特 征在于, 所述方法还 包括: 确定视频检测初始模型, 所述视频检测初始模型包括: 所述多个模态分别对应的第一 特征模块、 第二特 征模块、 跨模态特 征模块、 查询特 征模块及片段输出模块; 确定训练样本, 所述训练样本中包括多个视频样本、 各个视频样本对应的特定检测样 本及所述各个视频样本中基于特定检测样本的视频片段 标注; 通过所述任一模态的第一特征模块获取所述视频样本包含的任一模态的目标检测数 据对应的单模态注意特征, 通过所述跨模态特征模块将所述第一特征模块获取的单模态注 意特征进 行融合得到所述视频样本的全局特征, 通过所述第二特征模块 获取所述特定检测 样本的特征信息, 通过所述查询特征模块获取所述全局特征与对应的特定检测样本的特征 信息之间的相似性特征信息, 通过所述片段输出模块确定所述视频样本中基于相应特定检 测样本的视频片段; 根据所述视频检测初始模型得到的各个视频样本的视频片段及所述训练样本中相应 视频样本的视频片段 标注, 调整所述视频检测初始模型, 以得到预置的视频检测模型。 6.如权利要求5所述的方法, 其特征在于, 所述训练样本还包括: 所述各个视频样本中 各个子片段的高光显著性标注, 所述视频检测初始模型还 包括高光信息 输出模块; 所述方法还包括: 通过所述高光信 息输出模块确定所述各个视频样本中所包括的各个 子片段的高光显著性分数;权 利 要 求 书 1/3 页 2 CN 114581821 A 2所述根据所述视频检测初始模型得到的各个视频样本的视频片段及所述训练样本中 相应视频样本的视频片段标注, 调整 所述视频检测初始模型, 具体包括: 根据所述视频检测 初始模型中片段输出模型确定的各个视频样本的视频片段及所述训练样本中相 应视频样 本的视频片段标注, 与所述视频检测初始模型中高光信息输出模块确定的各个视频样本的 高光显著性分数及所述训练样本中相应视频样本的视频片段标注, 调整 所述视频检测初始 模型。 7.如权利要求5所述的方法, 其特征在于, 所述跨模态特征模块包括多层跨模态编码和 融合子模块, 其中: 所述多层跨模态编码之间串联连接, 所述多层跨模态编码中的第 一单层跨模态编码用 于分别对各个模态的单模态注意特征进行特征注意处理, 得到跨模态注意特征, 所述多层 跨模态编码中的第二单层跨模态编码用于分别对前一单层跨模态编码得到的各个模态的 跨模态注意特征进行特征注意处 理, 得到另一 跨模态注意特征; 所述融合子模块用于将所述多层跨模态编码中最后一单层跨模态编码得到的各个模 态的跨模态 注意特征进行融合得到所述目标视频的全局特 征。 8.如权利要求7所述的方法, 其特征在于, 所述多层跨模态编码中任一单层的跨模态编 码包括: 多个多头注意力子模块、 多个层标准 化、 叠加子模块及前馈神经网络; 所述多个多头注意力子模块中的第一多头注意力子模块用于通过媒介特征序列在低 维度特征空间, 将各个模态的目标检测数据的单模态注意特征进行注意力处理, 所述多个 层标准化中的第一层标准化分别用于将注意力处理后的特征进行标准化处理得到第一标 准化特征, 所述叠加子模块用于将各个第一层标准化得到的第一标准化特征及所述媒介特 征序列叠加后得到压缩后的跨模态特征序列, 将所述压缩后的跨模态特征序列分别输入到 所述多个多注意力子模块中的第二多头注意力子模块; 所述第二多头注意力 子模块将所述压缩后的跨模态特征序列扩展到 高维度特征空间, 所述多个层标准化中第二层标准化用于根据所述单模态注意特征及所述第二多头注意力 子模块得到的注意力处 理后的特 征进行求和及标准 化处理, 得到第二标准 化特征; 所述前馈神经网络用于将所述第 二标准化特征进行过滤处理, 所述多个层标准化中的 第三层标准 化用于根据过 滤后特征输出相应模态的跨模态 注意特征。 9.如权利要求5所述的方法, 其特征在于, 当对所述参数值的调整次数等于预置的次数 时, 或若当前调整的参数值与上一次调整的参数值的差值小于一阈值时, 则停止对所述参 数值的调整。 10.一种视频检测系统, 其特 征在于, 信息获取单元, 用于获取目标视频包含的多个模态的目标检测数据, 及获取特定检测 信息; 单模态特征单元, 用于获取所述多个模态的目标检测数据分别对应的单模态注意特 征; 融合单元, 用于将所述多个模态的目标检测数据分别对应的单模态注意特征进行融 合, 得到所述目标视频的全局特 征; 相似单元, 用于获取 所述全局特 征与特定检测信息之间的相似性特 征信息; 检测单元, 用于根据 所述相似性特征信 息确定所述目标视频中与所述特定检测信 息相权 利 要 求 书 2/3 页 3 CN 114581821 A 3

.PDF文档 专利 一种视频检测方法、系统及存储介质和服务器

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频检测方法、系统及存储介质和服务器 第 1 页 专利 一种视频检测方法、系统及存储介质和服务器 第 2 页 专利 一种视频检测方法、系统及存储介质和服务器 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:19:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。