专利 口语文本生成方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210874171.1 (22)申请日 2022.07.25 (65)同一申请的已公布的文献号申请公布号 CN 115081459 A (43)申请公布日 2022.09.20 (73)专利权人北京云迹科技股份有限公司地址 100089 北京市海淀区北四环西路67 号7层702室 (72)发明人郭俊廷　支涛　 (74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687 专利代理师杨波 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/253(2020.01)G06F 40/211(2020.01) G06N 3/08(2006.01) (56)对比文件 US 2020/0184307 A1,2020.0 6.11 US 2019/ 0294676 A1,2019.09.26 CN 112733554 A,2021.04.3 0 刘娇等.人机对话系统中意图识别方法综述. 《计算机工程与应用》 .2019,(第12期), 王堃等.端到端对话系统意图语义槽联合识别研究综述. 《计算机工程与应用》 .2020,(第 14期), 审查员唐娜 (54)发明名称口语文本生成方法、装置、设备及存储介质 (57)摘要本公开提供一种口语文本生成方法、装置、设备及存储介质。该方法包括：获取原始书面文本、文本意图及口语特征向量，并输入到口语文本生成模块中；对原始书面文本及文本意图进行拼接得到文本意图对，利用书面文本编码器对文本意图对进行编码，得到书面文本语义向量；将书面文本语义向量及口语特征向量输入到口语文本解码器，进行编码得到口语文本语义向量；利用口语文本生成器对口语文本语义向量进行解码得到口语文本；将原始书面文本和口语文本输入到语义一致性打分模块中进行打分，将一致性打分结果大于预设阈值的口语文本作为生成的口语文本。本公开能够生成通顺、语义清晰的口语文本，生成的口语文本可用于训练神经网络，提升对话系统的性能。权利要求书3页说明书12页附图5页 CN 115081459 B 2022.11.11 CN 115081459 B 1.一种口语文本生成方法，其特征在于，包括：获取用于生成口语文本的原始书面文本，并确定所述原始书面文本对应的文本意图以及口语特征向量，将所述原始书面文本、所述文本意图以及所述口语特征向量组成的数据集输入到预先训练好的口语文本生成模块中；对所述原始书面文本以及所述文本意图进行拼接得到文本意图对，将所述文本意图对作为所述口语文本生成模块中的书面文本编码器的输入，利用所述书面文本编码器对所述文本意图对进行编码，得到书面文本语义向量；将所述书面文本语义向量以及所述口语特征向量作为所述口语文本生成模块中的口语文本解码器的输入，利用所述口语文本解码器进行编码，得到口语文本语义向量；将所述口语文本语义向量作为所述口语文本生成模块中的口语文本生成器的输入，利用所述口语文本生成器对所述口语文本语义向量进行解码，得到与所述原始书面文本对应的口语文本；将所述原始书面文本以及所述口语文本输入到预先训练好的语义一致性打分模块中，利用所述语义一致性打分模块对所述原始书面文本与所述口语文本之间进行语义的一致性打分，将一致性打分结果大于预设阈值的所述原始书面文本对应的所述口语文本作为生成的口语文本；其中，所述口语文本解码器采用预训练的BERT模型，在利用所述口语文本解码器的注意力矩阵进行口语特征的学习时，基于预定的软编码向量缩放融合方法，将离散的口语特征向量进行缩放和软编码，将软编码口语特征矩阵融入到注意力矩阵中，以便让模型学习口语特征的信息。 2.根据权利要求1所述的方法，其特征在于，所述获取用于生成口语文本的原始书面文本，并确定所述原始书面文本对应的文本意图以及口语特征向量，包括：从预设场景的对话系统的数据库中采集多个书面文本，将采集到的所述多个书面文本作为原始书面文本，为每个所述原始书面文本匹配对应的文本意图，并基于预设的口语特征生成口语特征向量。 3.根据权利要求1所述的方法，其特征在于，在对所述口语文本生成模块进行训练之前，所述方法还包括：获取历史对话场景下产生的书面文本以及所述书面文本对应的意图，利用预设的口语特征规则，对所述书面文本进行处理得到多个口语文本，并确定每个所述口语文本与所述书面文本之间的差异内容，以及所述口语特征规则对应的口语特征；为每个所述书面文本以及该书面文本对应的多个口语文本，分别进行句子的通顺性以及语义的一致性进行标记，将所述书面文本、所述口语文本以及所述语义的一致性进行整理生成第一训练集；选取一定比例的所述书面文本以及所述书面文本对应的口语文本，并结合所述书面文本与所述口语文本之间的差异内容、所述书面文本对应的意图、以及所述句子的通顺性生成第二训练集；选取另一比例的句子通顺的数据生成第三训练集，其中所述句子通顺的数据中包含所述书面文本、所述口语文本、所述意图以及所述口语特征。 4.根据权利要求3所述的方法，其特征在于，利用所述第二训练集分别对所述书面文本权　利　要　求　书 1/3 页 2 CN 115081459 B 2编码器和所述口语文本解码器进行预训练；其中，所述书面文本编码器采用预训练的BERT模型，采用以下方式对所述书面文本编码器对应的BERT模型进行预训练，包括：在基于口语特征遮掩语言模型任务作为预训练任务对所述书面文本编码器进行预训练时，将所述第二训练集中每一条文本数据中的差异内容，随机选择一定比例的单词进行替换，对于每一个被替换的单词，按照一定的概率进行掩码，并且按照另一概率替换成其他单词；在基于意图识别任务作为预训练任务对所述书面文本编码器进行预训练时，将所述第二训练集中的每一条文本数据以及文本的意图，按照一定的概率将所述文本的意图修改为其他意图；将所述文本及意图组成的文本意图数据，以及所述文本及其他意图组成的文本意图数据，分别作为意图识别任务的输入，利用意图识别任务对所述文本意图数据的进行预测，判断所述文本与意图和/或其他意图是否匹配。 5.根据权利要求4所述的方法，其特征在于，采用以下方式对所述口语文本解码器对应的BERT模型进行预训练，包括：在基于通顺语句判断任务作为预训练任务对所述口语文本解码器进行预训练时，对所述第二训练集中的每一条文本数据，根据句子是否通顺，抽取相同数量的正负样本，将所述正负样本作为通顺语句判断任务的输入，利用通顺语句判断任务对所述正负样本进行预测，判断文本是否通顺。 6.根据权利要求4所述的方法，其特征在于，在对所述书面文本编码器和所述口语文本解码器进行预训练之后，利用所述第三训练集对预训练后的所述书面文本编码器和所述口语文本解码器分别进行正式训练，以便调整模型的参数，并利用所述第三训练集对口语文本生成器进行正式训练，基于正式训练后的书面文本编码器、口语文本解码器及口语文本生成器组成训练后的口语文本生成模块。 7.根据权利要求1所述的方法，其特征在于，所述利用所述语义一致性打分模块对所述原始书面文本与所述口语文本之间进行语义的一致性打分，包括：利用所述语义一致性打分模块中的编码器分别对所述原始书面文本以及所述口语文本进行编码，得到书面文本语义向量和口语文本语义向量，基于所述书面文本语义向量以及口语文本语义向量进行余弦相似度计算，当所述余弦相似度得分大于预设阈值时，将所述原始书面文本对应的所述口语文本进行保留，否则，将所述原始书面文本对应的所述口语文本舍弃，将最终保留的全部口语文本作为口语文本的生成结果。 8.一种口语文本生成装置，其特征在于，包括：获取模块，被配置为获取用于生成口语文本的原始书面文本，并确定所述原始书面文本对应的文本意图以及口语特征向量，将所述原始书面文本、所述文本意图以及所述口语特征向量组成的数据集输入到预先训练好的口语文本生成模块中；编码模块，被配置为对所述原始书面文本以及所述文本意图进行拼接得到文本意图对，将所述文本意图对作为所述口语文本生成模块中的书面文本编码器的输入，利用所述书面文本编码器对所述文本意图对进行编码，得到书面文本语义向量；解码模块，被配置为将所述书面文本语义向量以及所述口语特征向量作为所述口语文权　利　要　求　书 2/3 页 3 CN 115081459 B 3

专利 口语文本生成方法、装置、设备及存储介质

专利口语文本生成方法、装置、设备及存储介质