专利 语音交互方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211086105.4 (22)申请日 2022.09.06 (71)申请人平安银行股份有限公司地址 518000 广东省深圳市罗湖区深南东路5047号 (72)发明人李骁　于欣璐　赖众程　常鹏　高洪喜　聂文尚　冯晋飞　苏杰　胡云飞　张莉　邓兆卉　 (74)专利代理机构深圳紫藤知识产权代理有限公司 44570 专利代理师郑明耀 (51)Int.Cl. G10L 15/14(2006.01) G10L 15/18(2013.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 16/33(2019.01) (54)发明名称语音交互方法、装置、电子设备和存储介质 (57)摘要本发明公开了一种语音交互方法、装置、电子设备和存储介质，对用户输入的语音进行语义解析，得到语音的语义解析结果；通过基于部分可观察的马尔科夫决策过程建立的预测模型对语义解析结果进行类型预测，得到语义解析结果对应的目标对话类型；将目标对话类型输入至预设的知识图谱网络，生成知识图谱向量，将知识图谱向量输入至推荐网络，得到目标对话类型对应的回复文本，并对回复文本进行语音转换，得到回复文本对应的回复语音，输出回复语音；本发明能够对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性。权利要求书2页说明书14页附图3页 CN 115497465 A 2022.12.20 CN 115497465 A 1.一种语音交互方法，其特征在于，所述方法包括：对用户输入的语音进行语义解析，得到所述语音的语义解析结果；通过预设的预测模型对所述语义解析结果进行类型预测，得到所述语义解析结果对应的目标对话类型；所述预测模型是基于部分可观察的马尔科夫决策过程建立的，所述目标对话类型用于指示所述语音对应的用户意图；将所述目标对话类型和所述语义解析结果输入至预设的知识图谱网络，生成知识图谱向量；将所述知识图谱向量输入至推荐网络，得到所述目标对话类型对应的回复文本；对所述回复文本进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音。 2.如权利要求1所述的语音交互方法，其特征在于，所述对用户输入的语音进行语义解析，得到所述语音的语义解析结果包括：对用户输入的语音进行文本转换，得到所述语音对应的文本信息；对所述文本信息进行词向量提取，得到所述文本信息的词向量；根据每个所述词向量的词序、词序、依存关系进行融合处理，得到融合词向量；将每个所述融合词向量输入已训练的编码器进行稀疏编码，得到融合词向量的稀疏编码；将所述融合词向量的稀疏编码输入至已训练的语义解析模型进行语义解析，得到所述语音的语义解析结果。 3.如权利要求2所述的语音交互方法，其特征在于，所述对所述文本信息进行词向量提取，得到所述文本信息的词向量包括：将所述文本信息进行分词处理，得到所述文本信息中的多个词汇；确定每个所述词汇的词性、词序和关联关系；根据每个所述词汇的词性、词序和关联关系，确定每个所述词汇之间的相似度；根据每个所述词汇之间的相似度进行实体消歧，得到目标词汇；通过将所述目标词汇转换为词向量，得到所述文本信息的词向量。 4.如权利要求1所述的语音交互方法，其特征在于，所述通过预设的预测模型对所述语义解析结果进行类型预测，得到所述语义解析结果对应的目标对话类型得到包括：将所述语义解析结果输入至预设的预测模型进行类型预测，得到多个候选对话类型以及每个所述候选对话类型的置信度；根据每个所述候选对话类型的置信度，确定得到目标对话类型。 5.如权利要求4所述的语音交互方法，其特征在于，所述根据每个所述候选对话类型的置信度，确定得到目标对话类型包括：将每个所述候选对话类型的置信度与预设的置信度阈值进行比较；若每个所述候选对话类型的置信度都大于或等于预设的置信度阈值，则将每个所述候选对话类型进行置信度递减排序，根据排序后的候选对话类型，确定目标对话类型；若每个所述候选对话类型的置信度都小于预设的置信度阈值，则通过预先训练的识别模型对所述语义解析结果进行类别预测，得到所述语义解析结果对应的目标对话类型。 6.如权利要求1所述的语音交互方法，其特征在于，所述将所述知识图谱向量输入至推权　利　要　求　书 1/2 页 2 CN 115497465 A 2荐网络，得到所述目标对话类型对应的回复文本包括：将所述知识图谱向量输入至推荐网络，对所述知识图谱向量的头语义实体、语义关系以及尾语义实体进行处理，得到自主注意力表示；对所述头语义实体和所述自主注意力表示进行和聚合处理，得到聚合信息；将所述目标对话类型与所述聚合信息进行拼接，得到文本矩阵；根据所述文本矩阵得到所述目标对话类型对应的回复文本。 7.如权利要求1至6任一项所述的语音交互方法，其特征在于，所述对所述回复文本进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音包括：将所述回复文本输入至预设的隐马尔可夫模型的语音合成模型，得到频谱参数和声学特征序列；根据所述频谱参数和所述声学特征序列进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音。 8.一种语音交互装置，其特征在于，所述装置包括：解析模块，用于对用户输入的语音进行语义解析，得到所述语音的语义解析结果；预测模块，用于通过预设的预测模型对所述语义解析结果进行类型预测，得到所述语义解析结果对应的目标对话类型；所述预测模型是基于部分可观察的马尔科夫决策过程建立的，所述目标对话类型用于指示所述语音对应的用户意图；推理模块，用于将所述目标对话类型输入至预设的知识图谱网络，生成知识图谱向量；推荐模块，用于将所述知识图谱向量输入至推荐网络，得到所述目标对话类型对应的回复文本；输出模块，用于对所述回复文本进行语音转换，得到所述回复文本对应的回复语音，输出所述回复语音。 9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的语音交互方法中的操作。 10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的语音交互方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115497465 A 3

专利 语音交互方法、装置、电子设备和存储介质

专利语音交互方法、装置、电子设备和存储介质