专利 语音识别纠错方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211080639.6 (22)申请日 2022.09.05 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新开发区望江西路666号 (72)发明人张文辉　万根顺　高建清　潘嘉　刘聪　胡国平　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师任少瑞 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G10L 15/26(2006.01) (54)发明名称语音识别纠错方法、装置、电子设备和存储介质 (57)摘要本发明提供一种语音识别纠错方法、装置、电子设备和存储介质，其中方法包括：确定待纠错的语音数据的识别文本；基于所述识别文本中各字符在所述语音数据中的对齐位置，确定所述识别文本中各字符对应的声学特征；基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错。本发明提供的语音识别纠错方法、装置、电子设备和存储介质，不仅仅使用到了识别文本中各字符的语义特征，还使用到了各字符对应的声学特征，相比于相关技术仅考虑语义特征，能够捕获到各字符的声学和语义两方面特征，充分利用多种特征来增强待纠错的识别文本的表示能力，从而提高了错误定位和错误纠正的准确性。权利要求书2页说明书16页附图4页 CN 115455946 A 2022.12.09 CN 115455946 A 1.一种语音识别纠错方法，其特征在于，包括：确定待纠错的语音数据的识别文本；基于所述识别文本中各字符在所述语音数据中的对齐位置，确定所述识别文本中各字符对应的声学特征；基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错。 2.根据权利要求1所述的语音识别纠错方法，其特征在于，所述基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错，包括：基于所述识别文本中各字符在所述语音数据中的对齐位置，确定所述识别文本中各字符的位置特征；基于所述识别文本中各字符对应的声学特征、所述位置特征以及所述语义特征，对所述识别文本进行纠错。 3.根据权利要求2所述的语音识别纠错方法，其特征在于，所述基于所述识别文本中各字符对应的声学特征、所述位置特征以及所述语义特征，对所述识别文本进行纠错，包括：将所述识别文本中各字符的位置特征与所述语义特征进行相加，得到所述识别文本中各字符的位置语义特征；将所述识别文本中各字符的位置语义特征与所述声学特征进行拼接，得到所述识别文本中各字符的拼接特征；基于所述识别文本中各字符的拼接特征，对所述识别文本进行纠错。 4.根据权利要求1所述的语音识别纠错方法，其特征在于，所述确定待纠错的语音数据的识别文本，包括：确定语音数据的初始识别文本，并展示所述初始识别文本；将所述初始识别文本和所述语音数据对应的候选识别文本进行对齐，将对齐后的初始识别文本确定为所述待纠错的语音数据的识别文本，并展示所述识别文本；所述基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错，包括：响应于用户对所述识别文本中字符的选取操作，从所述识别文本中确定待纠错字符；基于所述待纠错字符对应的声学特征和所述待纠错字符的语义特征，对所述待纠错字符进行纠错。 5.根据权利要求 4所述的语音识别纠错方法，其特征在于，还包括：在所述待纠错字符为一个无语义的特殊符号的情况下，基于所述待纠错字符在所述候选识别文本中的对齐位置，对所述待纠错字符进行纠错。 6.根据权利要求1 ‑5中任一项所述的语音识别纠错方法，其特征在于，所述基于所述识别文本中各字符在所述语音数据中的对齐位置，确定所述识别文本中各字符对应的声学特征，包括：对所述语音数据进行声学特征提取，得到所述语音数据各语音帧的声学特征；将所述识别文本与所述语音数据各语音帧的预测文本对齐，确定所述识别文本中各字符在所述语音数据中的对齐位置；权　利　要　求　书 1/2 页 2 CN 115455946 A 2从所述语音数据各语音帧的声学特征中，选取所述识别文本中各字符在所述语音数据中的对齐位置处的声学特征，作为所述识别文本中各字符对应的声学特征。 7.根据权利要求1所述的语音识别纠错方法，其特征在于，所述基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错，包括：基于语音识别纠错模型，应用所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错；其中，所述语音识别纠错模型基于样本语音数据、所述样本语音数据的标准识别文本和候选样本识别文本训练得到的。 8.根据权利要求7所述的语音识别纠错方法，其特征在于，所述样本语音数据是对所述标准识别文本进行语音合成得到的，所述候选样本识别文本是对所述样本语音数据进行语音识别得到的。 9.根据权利要求7所述的语音识别纠错方法，其特征在于，所述候选样本识别文本是对所述标准识别文本添加扰动得到的，所述添加扰动包括字符替换、插入或删除中的至少一种；其中，替换字符基于所述标准识别文本中各字符的相似发音确定。 10.根据权利要求7 ‑9中任一项所述的语音识别纠错方法，其特征在于，所述语音识别纠错模型是基于如下步骤训练得到的：基于样本文本的上下文信息，对初始模型进行预训练，得到预训练模型；基于样本语音数据、所述样本语音数据的标准识别文本和候选样本识别文本，对所述预训练模型进行训练，得到所述语音识别纠错模型。 11.一种语音识别纠错装置，其特征在于，包括：识别文本确定单元，用于确定待纠错的语音数据的识别文本；声学特征确定单元，用于基于所述识别文本中各字符在所述语音数据中的对齐位置，确定所述识别文本中各字符对应的声学特征；纠错单元，用于基于所述识别文本中各字符对应的声学特征和所述识别文本中各字符的语义特征，对所述识别文本进行纠错。 12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1至10中任一项所述语音识别纠错方法。 13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述语音识别纠错方法。权　利　要　求　书 2/2 页 3 CN 115455946 A 3

专利 语音识别纠错方法、装置、电子设备和存储介质

专利语音识别纠错方法、装置、电子设备和存储介质