(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210874171.1
(22)申请日 2022.07.25
(65)同一申请的已公布的文献号
申请公布号 CN 115081459 A
(43)申请公布日 2022.09.20
(73)专利权人 北京云迹科技股份有限公司
地址 100089 北京市海淀区北四环西路67
号7层702室
(72)发明人 郭俊廷 支涛
(74)专利代理 机构 北京嘉科知识产权代理事务
所(特殊普通 合伙) 11687
专利代理师 杨波
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/253(2020.01)G06F 40/211(2020.01)
G06N 3/08(2006.01)
(56)对比文件
US 2020/0184307 A1,2020.0 6.11
US 2019/ 0294676 A1,2019.09.26
CN 112733554 A,2021.04.3 0
刘娇 等.人机对话系统中意图识别方法综
述. 《计算机 工程与应用》 .2019,(第12期),
王堃 等.端到端 对话系统意图语义槽联合
识别研究综述. 《计算机 工程与应用》 .2020,(第
14期),
审查员 唐娜
(54)发明名称
口语文本生成方法、 装置、 设备及存 储介质
(57)摘要
本公开提供一种口语文本生成方法、 装置、
设备及存储介质。 该方法包括: 获取原始书面文
本、 文本意图及口语特征向量, 并输入到口语文
本生成模块中; 对原始书面文本及文本意图进行
拼接得到文本意图对, 利用书面文本编码器对文
本意图对进行编码, 得到书面文本语义向量; 将
书面文本语义向量及口语特征向量输入到口语
文本解码器, 进行编码得到口语文本语义向量;
利用口语文本生成器对口语文本语义向量进行
解码得到口语文本; 将原始书面文本和口语文本
输入到语义一致性打分模块中进行打分, 将一致
性打分结果大于预设阈值的口语文本作为生成
的口语文本。 本公开能够生成通顺、 语义清晰的
口语文本, 生成的口语文本可用于训练神经网
络, 提升对话系统的性能。
权利要求书3页 说明书12页 附图5页
CN 115081459 B
2022.11.11
CN 115081459 B
1.一种口语文本生成方法, 其特 征在于, 包括:
获取用于生成口语文本的原始书面文本, 并确定所述原始书面文本对应的文本意图以
及口语特征向量, 将所述原始书面文本、 所述文本意图以及所述口语特征向量组成的数据
集输入到预 先训练好的 口语文本生成模块中;
对所述原始书面文本以及所述文本意图进行拼接得到文本意图对, 将所述文本意图对
作为所述口语文本生成模块中的书面文本编码器的输入, 利用所述书面文本编 码器对所述
文本意图对进行编码, 得到书面文本语义向量;
将所述书面文本语义向量以及所述口语特征向量作为所述口语文本生成模块中的口
语文本解码器的输入, 利用所述口语文本解码器进行编码, 得到口语文本语义向量;
将所述口语文本语义向量作为所述口语文本生成模块中的口语文本生成器的输入, 利
用所述口语文本生成器对所述口语文本语义向量进行解码, 得到与所述原始书面文本对应
的口语文本;
将所述原始书面文本以及所述口语文本输入到预先训练好的语义一致性打分模块中,
利用所述语义一致性打分模块对所述原始书面文本与所述口语文本之间进行语义的一致
性打分, 将一致性打分结果大于预设阈值的所述原始书面文本对应的所述口语文本作为生
成的口语文本;
其中, 所述口语文本解码器采用预训练的BERT模型, 在利用所述口语文本解码器的注
意力矩阵进行 口语特征 的学习时, 基于预定的软编码向量缩放融合方法, 将离散的口语特
征向量进行缩放和软编码, 将软编码口语特征矩阵融入到注意力矩阵中, 以便让模型学习
口语特征的信息 。
2.根据权利要求1所述的方法, 其特征在于, 所述获取用于生成口语文本的原始书面文
本, 并确定所述原 始书面文本对应的文本意图以及口语特 征向量, 包括:
从预设场景的对话系统 的数据库中采集多个书面文本, 将采集到的所述多个书面文本
作为原始书面文本, 为每个所述原始书面文本匹配对应的文本意图, 并基于预设的口语特
征生成口语特 征向量。
3.根据权利要求1所述的方法, 其特征在于, 在对所述口语文本生成模块进行训练之
前, 所述方法还 包括:
获取历史对话场景下产生的书面文本以及所述书面文本对应的意图, 利用预设的口语
特征规则, 对所述书面文本进行处理得到多个口语文本, 并确定每个所述口语文本与所述
书面文本之间的差异内容, 以及所述口语特 征规则对应的 口语特征;
为每个所述书面文本以及该书面文本对应的多个口语文本, 分别进行句子的通顺性以
及语义的一致性进行标记, 将所述书面文本、 所述口语文本以及所述语义的一致性进行整
理生成第一训练集;
选取一定比例的所述书面文本以及所述书面文本对应的口语文本, 并结合所述书面文
本与所述口语文本之间的差异内容、 所述书面文本对应的意图、 以及所述句 子的通顺性生
成第二训练集;
选取另一比例的句子通顺的数据生成第 三训练集, 其中所述句子通顺的数据中包含所
述书面文本、 所述口语文本、 所述 意图以及所述口语特 征。
4.根据权利要求3所述的方法, 其特征在于, 利用所述第 二训练集分别对所述书面文本权 利 要 求 书 1/3 页
2
CN 115081459 B
2编码器和所述口语文本解码器进行 预训练;
其中, 所述书面文本编码器采用预训练的BERT模型, 采用以下方式对所述书面文本编
码器对应的BERT模型进行 预训练, 包括:
在基于口语特征遮掩语言模型任务作为预训练任务对所述书面文本编码器进行预训
练时, 将所述第二训练集中每一条文本数据中的差异内容, 随机选择一定比例的单词进行
替换, 对于每一个被替换的单词, 按照一定的概率进 行掩码, 并且按照另一概率替换成其他
单词;
在基于意图识别任务作为预训练任务对所述书面文本编码器进行预训练时, 将所述第
二训练集中的每一条文本数据以及文本的意图, 按照一定的概率将所述文本的意图修改为
其他意图;
将所述文本及意图组成的文本意图数据, 以及所述文本及其他意图组成的文本意图数
据, 分别作为意图识别任务的输入, 利用意图识别任务对所述文本意图数据的进 行预测, 判
断所述文本与意图和/或其 他意图是否匹配。
5.根据权利要求4所述的方法, 其特征在于, 采用以下方式对所述口语文本解码器对应
的BERT模型进行 预训练, 包括:
在基于通顺语句判断任务作为预训练任务对所述口语文本解码器进行预训练时, 对所
述第二训练集中的每一条文本数据, 根据句子是否通顺, 抽取相同数量的正负样本, 将所述
正负样本作为通顺语句判断任务的输入, 利用通顺语句判断任务对所述正负样本进行预
测, 判断文本是否通 顺。
6.根据权利要求4所述的方法, 其特征在于, 在对所述书面文本编码器和所述口语文本
解码器进行预训练之后, 利用所述第三训练集对预训练后的所述书面文本编码器和所述口
语文本解码器分别进行正式训练, 以便调整模型 的参数, 并利用所述第三训练集对口语文
本生成器进行正式训练, 基于正式训练后的书面文本编码器、 口语文本解码器及口语文本
生成器组成训练后的 口语文本生成模块。
7.根据权利要求1所述的方法, 其特征在于, 所述利用所述语义一致性打分模块对所述
原始书面文本与所述口语文本之间进行语义的一 致性打分, 包括:
利用所述语义一致性打分模块中的编码器分别对所述原始书面文本以及所述口语文
本进行编码, 得到书面文本语义向量和口语文本语义向量, 基于所述书面文本语义向量以
及口语文本语义向量进行余弦相似度计算, 当所述余弦相似度得分大于预设阈值时, 将所
述原始书面文本对应的所述口语文本进行保留, 否则, 将所述原始书面文本对应的所述口
语文本舍弃, 将最终保留的全部口语文本作为口语文本的生成结果。
8.一种口语文本生成装置, 其特 征在于, 包括:
获取模块, 被配置为获取用于生成口语文本的原始书面文本, 并确定所述原始书面文
本对应的文本意图以及口语特征向量, 将所述原始书面文本、 所述文本意图以及所述口语
特征向量组成的数据集输入到预 先训练好的 口语文本生成模块中;
编码模块, 被配置为对所述原始书面文本以及所述文本意图进行拼接得到文本意图
对, 将所述文本意图对作为所述口语文本生成模块中的书面文本编码器的输入, 利用所述
书面文本编码器对所述文本意图对进行编码, 得到书面文本语义向量;
解码模块, 被配置为将所述书面文本语义向量以及所述口语特征向量作为所述口语文权 利 要 求 书 2/3 页
3
CN 115081459 B
3
专利 口语文本生成方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:28上传分享