iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211154367.X (22)申请日 2022.09.22 (71)申请人 武汉大学 地址 430072 湖北省武汉市武昌区珞珈山 街道八一路2 99号 (72)发明人 肖春霞 李子青 罗飞  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 齐晨涵 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称 一种文本生成视频的网络模型、 方法及装置 (57)摘要 本发明公开了一种基于知识蒸馏和视觉循 环单元的文本生成视频网络模型、 方法及装置。 首先公开了一种通过知识蒸馏从文本生成图像 模型获取知识增强文本生成视频模型效果的方 法。 将文本生成图像模型作为教师网络, 从中蒸 馏文本到视觉内容映射的知识, 这些知识作为生 成视频中每一帧共享的抽象约束, 从而提升生成 每一帧的文本图像语意一致性。 同时本发明公开 了一种视觉循环单元, 该模块迭代 地根据输入文 本和先前生成的帧预测下一帧, 旨在改善视频的 时序连贯 性。 权利要求书2页 说明书7页 附图1页 CN 115249062 A 2022.10.28 CN 115249062 A 1.一种文本生成视频的网络模型, 其特 征在于, 包括以下模块: 文本编码模块, 将输入文本编码为单词特征向量和句子特征向量, 再对句子特征向量 通过条件增强模块采样得到连续的向量特 征表示; 视频帧生成模块, 将文本编码模块的输出作为输入, 生成视频帧, 该模块包括视觉循环 单元、 注意力模块和反卷积层, 其中视觉循环单元由门控循环单元、 全连接层和反卷积生成 层组成, 其视觉循环单元在时间步t, 将上一原始帧 和隐藏层 输入到门控循环单 元, 再依次通过全连接层和反卷积生成层生成新的原始视频帧 , 由门控循环单元更 新以表示来自输入文本的时间信息和语义特征; 同时, 通过注意力模块使每一原始视频帧 获得上下文编码向量; 最后, 将添加了上下文信息的原始帧通过二维反卷积层生成最终视 频帧; 知识蒸馏模块, 包括教师网络、 中间特征蒸馏模块和感知损失蒸馏模块, 教师网络输入 是文本, 生成结果是文本对应的图像; 中间特征蒸馏模块提取文本生成图像网络中间层参 数中包含的视觉 ‑文本映射知识, 中间层参数中的知识采用核对齐损失和注意力图进行提 取; 感知损失蒸馏模块将教师网络的判别器作为感知损失提取器, 计算教师网络生成的图 片和每一帧视频图像的感知损失差, 并对所有帧的感知损失取平均得到视频感知感知损失 用来优化 生成器; 判别模块, 由视频判别器、 帧判别器和运动判别器组成, 从三个维度来判别结果的真假 以及是否与文本一 致。 2.根据权利要求1所述的文本生成视频的网络模型, 其特 征在于: 文本编码模块中通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和 句子特征向量。 3.根据权利要求1所述的文本生成视频的网络模型, 其特 征在于: 所述条件增强模块从独立的高斯分布中随机抽 样潜空间向量特征表示, 其中均值和 协 方差矩阵是句子特 征向量的函数。 4.根据权利要求1所述的文本生成视频的网络模型, 其特 征在于: 教师网络为A ttnGAN网络, 使用和文本生成视频网络相同的数据集进行 预训练。 5.根据权利要求1所述的文本生成视频的网络模型, 其特 征在于: 中间特征蒸馏模块采用改进的中间特征蒸馏思想, 提取文本生成图像网络 中间层参数 中包含的视觉 ‑文本映射知识, 并以一对多的形式将该知识作为不同时间步连接的反卷积 层的共享抽象特 征, 在时间步t的损失函数为: 其中, t为时间, 表示被选中的中间层集合, p表示被选中的某一中间层, 和 分别表示教师生成器和VRU被选中中间层 的参数, 和 分别表示教师权 利 要 求 书 1/2 页 2 CN 115249062 A 2生成器和 VRU被选中中间层参数的注意力图, 和 为超参数, KA( ·)表示核对齐 损失, 该损失前 的负号表示通过梯度下降提升参数 的核对齐相似性; 最终总的中间特征损 失为 , 即所有时间步中间层所 得损失的均值。 6.一种使用权利要求1 ‑5任一所述文本生成视频的网络模型进行文本生成图像的方 法, 其特征在于, 包括: 步骤S1: 输入视频的文字描述将输入文本编码为单词特 征矩阵和句子特 征矩阵; 步骤S2: 将得到的句子特征向量通过条件增强模块采样得到连续的向量特征表示, 再 串联一个从正态分布中采样的噪声向量, 输入到 视觉循环单 元迭代生成原 始视频帧; 步骤S3: 通过中间特征知识蒸馏提取教师网络中的视觉 ‑文本映射知识, 将其作为所有 原始帧的共享抽象特 征传递给文本生成视频网络; 步骤S4: 将每一原始视频帧通过注意力模块获得上下文编码向量, 再将添加了上下文 信息的原 始帧通过二维反卷积层生成最终视频帧; 步骤S5: 将生成的视频输入视频判别网络、 帧判别网络和运动判别网络, 从三个维度判 别视频的真假以及是否与文本一 致, 将得到对抗损失用来更新 生成器; 步骤S6: 对生成的最终帧计算感知损失蒸馏, 从高维度约束生成结果与文本生成图片 模型的语义 一致性能力达 到一致。 7.一种文本生成视频的装置, 其特征在于: 所述装置包括一个或多个处理器和一个或 多个存储器, 所述一个或多个存储器中存储有至少一条指 令, 所述至少一条指 令, 所述至少 一条指令由所述一个或多个处理器加载并执行以实现如权利要求6所述的基于知识蒸馏和 视觉循环单 元的文本生成视频 方法所执行的操作。 8.一种计算机可读存储介质, 其特征在于, 所述存储介质中存储有至少一条指令, 所述 至少一条指令由处理器加载并执行以实现如权利要求6所述的基于知识蒸馏和视觉循环单 元的文本生成视频 方法所执行的操作。权 利 要 求 书 2/2 页 3 CN 115249062 A 3

PDF文档 专利 一种文本生成视频的网络模型、方法及装置

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本生成视频的网络模型、方法及装置 第 1 页 专利 一种文本生成视频的网络模型、方法及装置 第 2 页 专利 一种文本生成视频的网络模型、方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。