iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211086105.4 (22)申请日 2022.09.06 (71)申请人 平安银行股份有限公司 地址 518000 广东省深圳市罗湖区深南 东 路5047号 (72)发明人 李骁 于欣璐 赖众程 常鹏  高洪喜 聂文尚 冯晋飞 苏杰  胡云飞 张莉 邓兆卉  (74)专利代理 机构 深圳紫藤知识产权代理有限 公司 44570 专利代理师 郑明耀 (51)Int.Cl. G10L 15/14(2006.01) G10L 15/18(2013.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 16/33(2019.01) (54)发明名称 语音交互方法、 装置、 电子设备和存 储介质 (57)摘要 本发明公开了一种语音交互方法、 装置、 电 子设备和存储介质, 对用户输入的语音进行语义 解析, 得到语音的语义解析结果; 通过基于部分 可观察的马尔科夫决策过程建立的预测模型对 语义解析结果进行类型预测, 得到语义解析结果 对应的目标对话类型; 将目标对话类型输入至预 设的知识图谱网络, 生成知识图谱向量, 将知识 图谱向量输入至推荐网络, 得到目标对话类型对 应的回复文本, 并对回复文本进行语音转换, 得 到回复文本对应的回复语音, 输出回复语音; 本 发明能够对用户输入的语音进行语义解析, 并基 于部分可观察的马尔科夫决策过程根据语义解 析结果确定用户意图, 并根据知识图谱识别符合 用户意图的回复文本, 提高了语音交互的准确性 和可靠性。 权利要求书2页 说明书14页 附图3页 CN 115497465 A 2022.12.20 CN 115497465 A 1.一种语音交 互方法, 其特 征在于, 所述方法包括: 对用户输入的语音 进行语义 解析, 得到所述语音的语义 解析结果; 通过预设的预测模型对所述语义解析结果进行类型预测, 得到所述语义解析结果对应 的目标对话类型; 所述预测模型是基于部分可观察的马尔科夫决策过程建立的, 所述 目标 对话类型用于指示所述语音对应的用户意图; 将所述目标对话类型和所述语义解析结果输入至预设的知识图谱 网络, 生成知识图谱 向量; 将所述知识图谱向量输入至推荐网络, 得到所述目标对话类型对应的回复文本; 对所述回复文本进行语音转换, 得到所述回复文本对应的回复语音, 输出所述回复语 音。 2.如权利要求1所述的语音交互方法, 其特征在于, 所述对用户输入的语音进行语义解 析, 得到所述语音的语义 解析结果包括: 对用户输入的语音 进行文本转换, 得到所述语音对应的文本信息; 对所述文本信息进行词向量 提取, 得到所述文本信息的词向量; 根据每个所述词向量的词序、 词序、 依存关系进行融合处 理, 得到融合词向量; 将每个所述融合词向量输入已训练 的编码器进行稀疏编码, 得到 融合词向量的稀疏编 码; 将所述融合词向量的稀疏编码输入至已训练 的语义解析模型进行语义解析, 得到所述 语音的语义 解析结果。 3.如权利要求2所述的语音交互方法, 其特征在于, 所述对所述文本信 息进行词向量提 取, 得到所述文本信息的词向量包括: 将所述文本信息进行分词处 理, 得到所述文本信息中的多个词汇; 确定每个所述词汇的词性、 词序和关联关系; 根据每个所述词汇的词性、 词序和关联关系, 确定每 个所述词汇之间的相似度; 根据每个所述词汇之间的相似度进行实体消歧, 得到目标词汇; 通过将所述目标词汇转换为词向量, 得到所述文本信息的词向量。 4.如权利要求1所述的语音交互方法, 其特征在于, 所述通过预设的预测模型对所述语 义解析结果进行类型 预测, 得到所述语义 解析结果对应的目标对话类型 得到包括: 将所述语义解析结果输入至预设的预测模型进行类型预测, 得到多个候选对话类型以 及每个所述候选对话类型的置信度; 根据每个所述候选对话类型的置信度, 确定得到目标对话类型。 5.如权利要求4所述的语音交互方法, 其特征在于, 所述根据每个所述候选对话类型的 置信度, 确定得到目标对话类型包括: 将每个所述候选对话类型的置信度与预设的置信度阈值进行比较; 若每个所述候选对话类型的置信度都大于或等于预设的置信度阈值, 则将每个所述候 选对话类型进行置信度递减排序, 根据排序后的候选对话类型, 确定目标对话类型; 若每个所述候选对话类型的置信度都小于预设的置信度阈值, 则通过预先训练 的识别 模型对所述语义 解析结果进行类别预测, 得到所述语义 解析结果对应的目标对话类型。 6.如权利要求1所述的语音交互方法, 其特征在于, 所述将所述知识图谱向量输入至推权 利 要 求 书 1/2 页 2 CN 115497465 A 2荐网络, 得到所述目标对话类型对应的回复文本包括: 将所述知识图谱向量输入至推荐网络, 对所述知识图谱向量的头语义实体、 语义关系 以及尾语义实体进行处 理, 得到自主注意力表示; 对所述头语义实体和所述自主注意力表示进行和聚合处 理, 得到聚合信息; 将所述目标对话类型与所述聚合信息进行拼接, 得到文本矩阵; 根据所述文本矩阵得到所述目标对话类型对应的回复文本 。 7.如权利要求1至6任一项所述的语音交互方法, 其特征在于, 所述对所述回复文本进 行语音转换, 得到所述回复文本对应的回复语音, 输出 所述回复语音包括: 将所述回复文本输入至预设的隐马尔可夫模型的语音合成模型, 得到频谱参数和声学 特征序列; 根据所述频谱参数和所述声学特征序列进行语音转换, 得到所述 回复文本对应的回复 语音, 输出 所述回复语音。 8.一种语音交 互装置, 其特 征在于, 所述装置包括: 解析模块, 用于对用户输入的语音 进行语义 解析, 得到所述语音的语义 解析结果; 预测模块, 用于通过预设的预测模型对所述语义解析结果进行类型预测, 得到所述语 义解析结果对应的目标对话类型; 所述预测模型是基于部 分可观察的马尔科夫决策过程建 立的, 所述目标对话类型用于指示所述语音对应的用户意图; 推理模块, 用于将所述目标对话类型输入至预设的知识图谱网络, 生成知识图谱向量; 推荐模块, 用于将所述知识图谱向量输入至推荐网络, 得到所述目标对话类型对应的 回复文本; 输出模块, 用于对所述 回复文本进行语音转换, 得到所述回复文本对应的回复语音, 输 出所述回复语音。 9.一种电子设备, 其特征在于, 包括存储器和 处理器; 所述存储器存储有应用程序, 所 述处理器用于运行所述存储器内的应用程序, 以执行权利要求1至7任一项所述的语音交互 方法中的操作。 10.一种存储介质, 其特征在于, 所述存储介质存储有多条指令, 所述指令适于处理器 进行加载, 以执 行权利要求1至7任一项所述的语音交 互方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115497465 A 3

PDF文档 专利 语音交互方法、装置、电子设备和存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音交互方法、装置、电子设备和存储介质 第 1 页 专利 语音交互方法、装置、电子设备和存储介质 第 2 页 专利 语音交互方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。