(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211145164.4
(22)申请日 2022.09.20
(65)同一申请的已公布的文献号
申请公布号 CN 115223086 A
(43)申请公布日 2022.10.21
(73)专利权人 之江实验室
地址 310023 浙江省杭州市余杭区文一西
路1818号人工智能小镇10号楼
(72)发明人 汪雯 崔文辉 张骥 钟灵
宛敏红 顾建军
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 邱启旺
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 20/62(2022.01)
G06V 10/26(2022.01)
G06V 10/82(2022.01)
G06F 40/284(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 114064967 A,202 2.02.18
CN 111897913 A,2020.1 1.06
CN 111930999 A,2020.1 1.13
CN 111368870 A,2020.07.0 3
CN 112650886 A,2021.04.13
CN 1089323 04 A,2018.12.04
CN 113971208 A,202 2.01.25
CN 112015947 A,2020.12.01
CN 112241468 A,2021.01.19
US 10839 223 B1,2020.1 1.17
WO 2022022152 A1,202 2.02.03
WO 2021184026 A1,2021.09.16
EP 3937072 A1,202 2.01.12
CN 114925232 A,202 2.08.19 (续)
审查员 王晟哲
(54)发明名称
基于交互注意力引导与修正的跨模态动作
定位方法与系统
(57)摘要
本发明公开了一种基于交互注意力引导与
修正的跨模态动作定位方法和系统, 该方法使用
三维卷积神经网络和词向量模型提取视频和文
本描述的特征表示, 并使用双向长短时间记忆网
络学习视频和文本描述的上下文信息; 再使用交
互注意力引导模块进行视频和文本跨模态特征
增强, 进一步通过修正门控单元进行语义信息融
合; 最后将融合后的多模态特征送入到时序定位
模块以获得时序片段的匹配度得分和时序边界
偏移量。 本发 明通过增强视频和文本的特征融合
能力, 能有效提高视频动作定位的性能, 满足现
实生活中复杂场景的视频动作定位需求。
[转续页]
权利要求书4页 说明书10页 附图2页
CN 115223086 B
2022.12.06
CN 115223086 B
(56)对比文件
赵磊.基于视觉语义理解的视 觉对话技术研
究. 《中国博士学位 论文全文数据库信息科技
辑》 .2022,(第3期),第I138-84页.
Long Chen等.Towards Robust Video Text
Detection with Spati o-Temporal A ttention
Modeling and Text Cues Fusi on. 《2022 IEEE
Internati onal Conference o n Multimedia
and Expo (IC ME)》 .2022,全文.
瞿晓晔.针对基 于自然语言的视频 段检索的
联合跨模态自模态图注意力网络. 《中国优秀硕
士学位论文全文数据库信息科技 辑》 .2022,(第5期),第I138- 576页.
徐文峰等.融合实体上 下文特征的深度文本
语义匹配模型. 《武汉大 学学报(理学版)》 .2020,
第66卷(第05期),第483 -494页.
陈卓等.基 于视觉-文本关系对齐的跨模态
视频片段检索. 《中国科 学:信息科 学》 .2020,第
50卷(第06期),第862-876页.
吴倩等.融合多标签和双注意力机制的图像
语义理解模型. 《智能计算机与应用》 .2020,第10
卷(第01期),第12-21页.
汪雯.中国博士学位 论文全文数据库信息科
技辑. 《中国博士学位 论文全文数据库信息科技
辑》 .2022,(第4期),第I138- 62页.2/2 页
2[接上页]
CN 115223086 B1.一种基于交互注意力引导与修正的跨模态动作定位方法, 其特征在于, 该方法包括
如下步骤:
S1: 对于给定的未分割视频序列, 按照固定帧率对视频进行等间隔采样得到视频图像
帧序列, 并将其分割成长度相等的视频片段单元, 然后使用预训练的三维卷积神经网络提
取视频片段的视 觉特征集合;
S2: 对于给定的文本描述语句, 使用在Wikipedia上预训练的GloVe模型得到每个单词
的特征嵌入向量, 将所有单词特 征拼接得到文本特 征集合;
S3: 在单词特 征上使用不同窗口大小的一维卷积挖掘单词间潜在的语义特 征;
S4: 由于三维卷积神经网络和词向量模型无法捕捉视频和文本描述的上下文语义关联
信息, 进一步将视频每个 帧特征和单词特征按时间和语序送入双向长短时间记忆网络, 对
视频和文本的序列化特 征进行建模, 得到 视频和文本描述的上 下文特征;
S5: 利用交互注意力引导与修正模块构建跨模态特征交互与融合网络; 所述网络包含
视觉引导注意力模块、 文本引导视觉注意力模块以及修正 门控模块, 用于增强视频和文本
内容的特 征表达; 具体过程 为:
(1.1) 文本引导视觉注意力模块: 首先, 将文本特征和视频特征通过线性变换得到查询
特征向量
, 键向量
, 值向量
; 在文本特征
上使用时间平均池化操作, 并
通过两个线性层和非线性激活函数 得到文本引导的注意力权 重
, 即:
其中,
为可学习的权重和偏置参数,
代表
函数 ,
为平均池 化操作; 随后, 分别将查询向量和键向量通过条件门与短路连接增强特
征内容的表达, 即:
其中,
代表逐元素相乘;
为增强后的视频查询向量输出;
为增强后的视频键向
量输出; 视频查询向量和键 向量的通道特征将根据模态信息被上述条件门激活或关闭, 以
此为视频特征添加文本描述的上下文语义作为指导信息; 其次, 计算视频模态内的特征自
注意力权 重, 在通道维度上使用
函数生成注意力权 重
:
;
其中,
为视频经过线性变换后的特征维度,
表示转置操作; 最后, 对原视频特征
进行更新:
;
其中,
为更新后的视频 特征;
(1.2) 视觉引导文本注意力模块: 对于给定的视频和文本模态特征, 首先计算视频查询权 利 要 求 书 1/4 页
2
CN 115223086 B
3
专利 基于交互注意力引导与修正的跨模态动作定位方法与系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:47上传分享