(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211084950.8
(22)申请日 2022.09.06
(71)申请人 内蒙古工业大 学
地址 010080 内蒙古自治区呼和浩特市土
默特左旗内蒙古工业大 学金川校区
(72)发明人 云静 袁静姝 郑博飞 焦磊
刘利民
(74)专利代理 机构 西安智大知识产权代理事务
所 61215
专利代理师 段俊涛
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 16/738(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于交叉融合和重建的多模态生成式
摘要获取方法
(57)摘要
一种基于交叉融合和重建的多模态生成式
摘要获取方法, 从多模态摘要数据集中提取文本
特征序列和视频特征序列, 使用文本和视频指导
下交叉融合模块, 分别将一种模态的特征序列作
为指导模态映射为查询特征, 另一种模态的特征
序列作为目标模态映射为键值对 特征, 捕捉模态
间相关性高于设定值的一致性语义; 经过迭代融
合, 生成文本和视频指导下多模态融合表示; 使
用文本和视频重建器得到文本和视频重建特征
序列, 并计算文本和视频重建损失; 使用摘要生
成器进行两层融合操作, 输出摘要分布, 并计算
与参考摘要的生成损失; 根据各损失, 对各组件
分别使用不同的损失函数组合, 加强对模态间一
致性和模态内互补语义的约束效果, 提升生成摘
要的准确性和丰富 性。
权利要求书4页 说明书8页 附图2页
CN 115544244 A
2022.12.30
CN 115544244 A
1.一种基于交叉融合和重建的多模态生成式摘要获取方法, 其特征在于, 包括如下步
骤:
步骤1, 从多模态摘要数据集中提取文本特征序列和视频特征序列, 其中所述文本特征
序列使用文本编码器提取;
步骤2, 使用文本指导下交叉融合模块和视频指导下交叉融合模块; 每个交叉融合模块
由多层跨模态Tr ansformer实现, 在每层融合迭代中, 两种单模态数据即文本和视频, 分别
将一种模态的特征序列作为指导模态映射为查询特征, 另一种模态的特征序列作为目标模
态映射为键值对特征, 然后通过跨模态注意力机制捕捉模态间相关性高于 设定值的一致性
语义; 经过迭代融合, 生成文本指导下多模态融合表示和视频指导下多模态融合表示;
步骤3, 使用文本和视频重建器, 以文本指导下多模态融合表示和视频指导下多模态融
合表示作为输入, 以相 应的源输入单模态特征作为 目标, 得到文本重建特征序列和视频重
建特征序列, 并计算文本 重建损失和视频重建损失;
步骤4, 使用摘要生成器, 首先利用层次化注意力, 对文本指导下多模态融合表示和视
频指导下多模态融合表示, 分别与摘要生成器的 隐层状态执行第一层融合操作得到两个融
合结果, 然后将得到的两个融合结果与摘要生成器的隐层状态执行第二层融合操作, 得到
第二层融合结果; 将第二层融合结果送入摘要生成器, 输出摘要分布, 并计算与参考摘要的
生成损失;
步骤5, 根据文本重建损失、 视频重建损失以及生成损失, 对文本编码器、 交叉融合模
块、 文本和视频重建器、 摘要生成器分别使用不同的损失函数组合, 以加强对模态间的一致
性和模态内互补语义的约束效果, 从而提升生成摘要的准确性和丰富 性。
2.根据权利要求1所述基于交叉融合和重建的多模态生成式摘要获取方法, 其特征在
于, 所述步骤1, 对于文本模态的源数据, 使用one ‑hot将文本字符映射到向量空间, 然后使
用基于Bi ‑RNN的文本编码器捕获字符间的上 下文语义即文本特 征序列Ft:
Ft=Enc(xt,ht‑1)
其中Enc表示基于Bi ‑RNN的文本编码器, xt表示当前one ‑hot编码后的字符向量, ht‑1表
示基于Bi ‑RNN的文本编码器运行到第t ‑1个时间点的隐藏状态, Ft∈n×dt, 其中n表示输入
的文本序列长度, dt表示文本模态空间的维数;
对于视频模态的源数据, 使用预训练模型3D ResNeXt‑101处理视频, 每16个帧提取一
段特征序列, 得到提取后的视频特征序列Fv∈m×dv, 其中m表示视频特征序列的长度, dv表
示视频模态空间的维数。
3.根据权利要求2所述基于交叉融合和重建的多模态生成式摘要获取方法, 其特征在
于, 所述步骤2具体步骤为:
步骤2.1: 使用文本指导下交叉融合模块, 在模块内从视频特征序列Fv向文本特征序列
Ft, 经过多层融合迭代, 生成文本指导下多模态融合表示ZT;
步骤2.2: 使用视频指导下交叉融合模块, 在模块内从文本特征序列Ft向视频特征序列
Fv, 经过多层融合迭代, 生成视频指导下多模态融合表示ZV。
4.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法, 其特征在
于, 所述步骤2.1, 生成ZT的过程如下式:权 利 要 求 书 1/4 页
2
CN 115544244 A
2其中Qt是由文本特征序列Ft映射得到的查询特征,
是从Ft到Qt的映射矩阵, Kv和Vv是
由视频特征序列Fv映射得到的键 ‑值对特征,
和
是从Fv到Kv和Vv的映射矩阵, CM( ·)
是文本指导下多头跨模态注意力机制, he adh指CM(·)内每一个注意力头生成的融合表示,
h代表注意力头的数量, softmax( ·)用于计算融合结果的分布,
代表Kv
Fv的
转置, dk代表键值对的特征空间维度,
是CM(·)生成的文本指导下 的融合表示, concat
(·)代表特征拼接操作, Wo是CM(·)内可训练矩阵, FFN( ·)是前馈神经网络层,
是文本
指导下多层交叉融合模块在每层最后的输出, i代表融合模块的层数, 当i为最后一层数时,
此时
即为融合模块 生成的ZT;
文本指导下交叉融合模块进行多层融合迭代, 每一层中从视频向文本特征序列的融合
处理步骤如下:
(1)将文本特征序列Ft作为指导模态映射为查询特征Qt, 将视频特征序列Fv作为目标特
征映射为键值对特征Kv Vv; 如果不是第一层迭代, 则将上一层迭代的输出
作为查询特
征;
(2)使用文本指导下的多头跨模态注意力机制, 在每个注意力头h eadh上进行一次融合,
每个注意力头生成将生成一个融合表示, 然后将所有融合表示拼接送入全连接层, 得到中
间融合向量
(3)将
与查询特 征Qt进行残差连接并标准 化, 然后送入前馈神经网络层F FN(·);
(4)将FFN( ·)输出结果和
进行残差连接并标准化, 得到一层输出的文本指导下多
模态融合表示ZT。
5.根据权利要求3所述基于交叉融合和重建的多模态生成式摘要获取方法, 其特征在
于, 所述步骤2.2, 生成ZV的过程如下式:
权 利 要 求 书 2/4 页
3
CN 115544244 A
3
专利 一种基于交叉融合和重建的多模态生成式摘要获取方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:54上传分享