iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211080639.6 (22)申请日 2022.09.05 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 张文辉 万根顺 高建清 潘嘉  刘聪 胡国平  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 任少瑞 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G10L 15/26(2006.01) (54)发明名称 语音识别纠错方法、 装置、 电子设备和存储 介质 (57)摘要 本发明提供一种语音识别纠错方法、 装置、 电子设备和存储介质, 其中方法包括: 确定待纠 错的语音数据的识别文本; 基于所述识别文本中 各字符在所述语音数据中的对齐位置, 确定所述 识别文本中各字符对应的声学特征; 基于所述识 别文本中各字符对应的声学特征和所述识别文 本中各字符的语义特征, 对所述识别文本进行纠 错。 本发明提供的语音识别纠错方法、 装置、 电子 设备和存储介质, 不仅仅使用到了识别文本中各 字符的语义特征, 还使用到了各字符对应的声学 特征, 相比于相关技术仅考虑语义特征, 能够捕 获到各字符的声学和语义两方面特征, 充分利用 多种特征来增强待纠错的识别文本的表示能力, 从而提高了错 误定位和错 误纠正的准确性。 权利要求书2页 说明书16页 附图4页 CN 115455946 A 2022.12.09 CN 115455946 A 1.一种语音识别纠错方法, 其特 征在于, 包括: 确定待纠错的语音数据的识别文本; 基于所述识别文本 中各字符在所述语音数据中的对齐位置, 确定所述识别文本 中各字 符对应的声学 特征; 基于所述识别文本 中各字符对应的声学特征和所述识别文本 中各字符的语义特征, 对 所述识别文本进行纠错。 2.根据权利要求1所述的语音识别纠错方法, 其特征在于, 所述基于所述识别文本 中各 字符对应的声学特征和所述识别文本中各字符的语义特征, 对所述识别文本进行纠错, 包 括: 基于所述识别文本 中各字符在所述语音数据中的对齐位置, 确定所述识别文本 中各字 符的位置特 征; 基于所述识别文本中各字符对应的声学特征、 所述位置特征以及所述语义特征, 对所 述识别文本进行纠错。 3.根据权利要求2所述的语音识别纠错方法, 其特征在于, 所述基于所述识别文本 中各 字符对应的声学 特征、 所述位置特征以及所述语义特 征, 对所述识别文本进行纠错, 包括: 将所述识别文本 中各字符的位置特征与 所述语义特征进行相加, 得到所述识别文本中 各字符的位置语义特 征; 将所述识别文本 中各字符的位置语义特征与所述声学特征进行拼接, 得到所述识别文 本中各字符的拼接特 征; 基于所述识别文本中各字符的拼接特 征, 对所述识别文本进行纠错。 4.根据权利要求1所述的语音识别纠错方法, 其特征在于, 所述确定待纠错的语音数据 的识别文本, 包括: 确定语音数据的初始 识别文本, 并展示所述初始 识别文本; 将所述初始识别文本和所述语音数据对应的候选识别文本进行对齐, 将对齐后的初始 识别文本确定为所述待纠错的语音数据的识别文本, 并展示所述识别文本; 所述基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特 征, 对所述识别文本进行纠错, 包括: 响应于用户对所述识别文本中字符的选取操作, 从所述识别文本中确定待纠错字符; 基于所述待纠错字符对应的声学特征和所述待纠错字符的语义特征, 对所述待纠错字 符进行纠错。 5.根据权利要求 4所述的语音识别纠错方法, 其特 征在于, 还 包括: 在所述待纠错字符为一个无语义的特殊符号的情况下, 基于所述待纠错字符在所述候 选识别文本中的对齐位置, 对所述待纠错字符进行纠错。 6.根据权利要求1 ‑5中任一项所述的语音识别纠错方法, 其特征在于, 所述基于所述识 别文本中各字符在所述语音数据中的对齐位置, 确定所述识别文本中各字符对应的声 学特 征, 包括: 对所述语音数据进行声学 特征提取, 得到所述语音数据各语音帧的声学 特征; 将所述识别文本与 所述语音数据各语音帧的预测文本对齐, 确定所述识别文本 中各字 符在所述语音数据中的对齐位置;权 利 要 求 书 1/2 页 2 CN 115455946 A 2从所述语音数据 各语音帧的声学特征中, 选取所述识别文本 中各字符在所述语音数据 中的对齐位置处的声学 特征, 作为所述识别文本中各字符对应的声学 特征。 7.根据权利要求1所述的语音识别纠错方法, 其特征在于, 所述基于所述识别文本 中各 字符对应的声学特征和所述识别文本中各字符的语义特征, 对所述识别文本进行纠错, 包 括: 基于语音识别纠错模型, 应用所述识别文本 中各字符对应的声学特征和所述识别文本 中各字符的语义特 征, 对所述识别文本进行纠错; 其中, 所述语音识别纠 错模型基于样本语音数据、 所述样本语音数据的标准识别文本 和候选样本识别文本训练得到的。 8.根据权利要求7所述的语音识别纠错方法, 其特征在于, 所述样本语音数据 是对所述 标准识别文本进 行语音合成得到的, 所述候选样本识别文本是对所述样本语音数据进 行语 音识别得到的。 9.根据权利要求7所述的语音识别纠错方法, 其特征在于, 所述候选样本识别文本是对 所述标准识别文本添加扰动得到的, 所述添加扰动包括字符替换、 插入或删除中的至少一 种; 其中, 替换字符基于所述标准识别文本中各字符的相似发音确定 。 10.根据权利要求7 ‑9中任一项所述的语音识别纠 错方法, 其特征在于, 所述语音识别 纠错模型 是基于如下步骤训练得到的: 基于样本文本的上 下文信息, 对初始模型进行 预训练, 得到预训练模型; 基于样本语音数据、 所述样本语音数据的标准识别文本和候选样本识别文本, 对所述 预训练模型进行训练, 得到所述语音识别纠错模型。 11.一种语音识别纠错装置, 其特 征在于, 包括: 识别文本确定单 元, 用于确定待纠错的语音数据的识别文本; 声学特征确定单元, 用于基于所述识别文本中各字符在所述语音数据中的对齐位置, 确定所述识别文本中各字符对应的声学 特征; 纠错单元, 用于基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符 的语义特 征, 对所述识别文本进行纠错。 12.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1至10中任一项 所述语音识别纠错方法。 13.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至10中任一项所述语音识别纠错方法。权 利 要 求 书 2/2 页 3 CN 115455946 A 3

PDF文档 专利 语音识别纠错方法、装置、电子设备和存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音识别纠错方法、装置、电子设备和存储介质 第 1 页 专利 语音识别纠错方法、装置、电子设备和存储介质 第 2 页 专利 语音识别纠错方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。