专利 基于表征学习的中文自动语音识别文本修复方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211134542.9 (22)申请日 2022.09.19 (71)申请人上海大学地址 200436 上海市宝山区上大路99号 (72)发明人武星　张源　 (74)专利代理机构上海申汇专利代理有限公司 31001 专利代理师翁若莹　徐颖 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G10L 15/26(2006.01) G10L 15/16(2006.01) G10L 15/06(2013.01) (54)发明名称基于表征学习的中文自动语音识别文本修复方法及系统 (57)摘要本发明涉及一种基于表征学习的中文自动语音识别文本修复方法及系统，基本BERT的中文标点符号预测模型，相比于现有的中文标点符号模型，本发明使用了更高效的RoBERTa预测模型，对原BERT预测模型进行微调，并且使用 Transformer来整合特征嵌入，是目前完整且高效的中文标点符号预测任务的方法和系统；提出的文本纠错模型中，使用双向LS TM结构提取了字音和笔画特征的嵌入层，借助于双向LSTM的记忆能力更好地解决了长程依赖问题；提出的模型将中文标点符号和中文纠错模型两个任务进行结合，形成了一个端到端的中文ASR输出本文修复系统，从两个角度完全解决ASR输出文本的错误，提高语音文本的正确率。权利要求书3页说明书8页附图4页 CN 115438154 A 2022.12.06 CN 115438154 A 1.一种基于表征学习的中文自动语音识别文本修复方法，其特征在于，中文自动语音识别出的中文送入BERT中文分词器进行编码后输出词向量，词向量送入中文标点符号预测模型进行标点符号预测，首先词向量分别通过字编码嵌入、拼音嵌入和字形嵌入编码和解码后送入Transformer网络， Transformer 网络对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习，整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度，分类模块输出每个字的之后最大概率的标点符号的类别；中文标点符号预测模型输出带有标点符号的句子送入到中文纠错模型中进行纠错，在中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编码嵌入，同时输入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入，将字符嵌入、位置编码嵌入、字音嵌入和字形嵌入进入融合嵌入后，送入基于Tr ansformer结构的中文纠错网络中，得到修复后的文本。 2.一种基于表征学习的中文自动语音识别文本修复系统，其特征在于，为中文标点符号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型，输入的中文文本送中文标点符号预测模型，中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型纠错，获得修复后的文本；所述中文标点符号预测模型包括BERT中文分词器、 RoBERTa预测模型、 ChineseBERT预测模型、 Transformer网络和分类模块；所述BERT中文分词器：对输入的中文文本中的每一个中文词进行编码从而获得词向量；所述RoBERTa预测模型：将词向量编码成通过预训练任务得到的字编码向量，即获得字编码嵌入；所述ChineseBERT预测模型：提取词向量的字音特征和字形特征，得到拼音嵌入和字形嵌入；所述Transformer网络：对字编码嵌入、拼音嵌入和字形嵌入进行自注意力机制的学习，整合字编码嵌入层、拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分类模块输入的维度；所述分类模块：由两层线性层和两层Dropout层来进行叠加，预测每一个字符编码对于标点分类的概率，输出每个字的之后最大概率的标点符号的类别；所述中文纠错模型采用PLOM E模型。 3.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统，其特征在于，所述RoBERTa预测模型采用动态掩码替换原BERT模型中的静态掩码和取消BERT模型中的下文预测任务，采用的掩码策略包括0％掩码、 15％掩码以及3 0％掩码。 4.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统，其特征在于，所述ChineseBERT预测模型中拼音嵌入：通过开源工具获取每个字的拼音，将每个字的拼音通过一层宽度为二的CNN网络进行卷积，然后通过最大池化层获得拼音嵌入；字形嵌入：使用三种中文字体的字形图片，每一个字形图片的大小为24*24，每个字的三种中文字体组合成24*24*3的张量，然后使用全卷积神经网络对张量进行拉伸形成字形嵌入。 5.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统，其特征在于，权　利　要　求　书 1/3 页 2 CN 115438154 A 2所述Transformer网络注意力机制的核心公式如下式所示：式中： Q是查询矩阵； K是注意力机制关注的信息； V是原始输入值通过线性变化之后的矩阵，用来保存输入特征， Q与K的转置KT进行点乘计算出对于Q在V上的注意力权重； dk是多头注意力机制算法中的head大小，利用进行尺度化的目的是避免Q与KT的点积太大，一旦点积过大时，经过Softmax函数进行反向传播的梯度计算，将结果平滑到0‑1区间。 6.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统，其特征在于，所述中文纠错模型输入包括四个嵌入层：字符嵌入、位置嵌入、拼音嵌入和笔画嵌入，通过查找表和预训练分词器，获得字符嵌入和位置嵌入；采用BiLSTM编码器用来表示拼音嵌入和笔画嵌入，字符嵌入、位置嵌入、拼音嵌入和笔画嵌入输出通过融合嵌入融合后，送入12 层的Transformer后得到输出。 7.一种基于表征学习的中文自动语音识别文本修复系统训练方法，其特征在于，包括如下步骤： 1)选择数据集，选择LC中文新闻数据集、 Json版社区问答数据集以及SIGHAN 2015 CSC Datasets三个数据集； 2)对样本数据集进行预处理，对中文标点符号数据集中的文本标点符号异常情况进行清洗，其次去除中文标点符号数据集中BERT预测模型编码器不能识别的字符，最后使用 BERT预测模型对中文标点符号数据集中的文本进行词向量的编码，作为微调预测模型的输入； 3)训练阶段，分别对中文标点符号预测模型以及对中文纠错模型进行训练，在训练两个模型的同时，提取两个模型最终得到的嵌入层输出的相对距离，将该距离进行平均归一化处理，同时加入到两个模型自身训练时的损失中，达到两个模型同步训练。 8.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法，其特征在于，所述LC中文新闻数据集以及Json版社区问答数据集作为中文标点符号预测模型训练的数据集，所述SIGHAN 2015 CSC Datasets作为中文纠错模型训练的数据集，数据集按训练识别要求分为训练集、验证集和测试集。 9.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法，其特征在于，所述中文标点符号预测模型的训练，具体包括以下步骤： A01、将预处理好的中文文本输入到BERT中文分词器中， BERT中文分词器将每一个中文进行编码，并且给每句话的起末位置添加标志符，这样就对之后每一次输入的编码的长度进行固定； A02、将得到的词向量分别输入到RoBERTa预测模型和ChineseBERT预测模型中， RoBERTa预测模型将词向量编码成通过预训练任务得到的字编码向量，即字编码嵌入，字编码向量包含字与字之间的关系以便后续的下游任务； ChineseBERT预测模型提取词向量的包括字音特征和字形特征的中文特征，得到拼音嵌入和字形嵌入，通过RoBERTa预测模型和 ChineseBERT预测模型，得到三个嵌入层：字编码嵌入、拼音嵌入和字形嵌入；权　利　要　求　书 2/3 页 3 CN 115438154 A 3

专利 基于表征学习的中文自动语音识别文本修复方法及系统

专利基于表征学习的中文自动语音识别文本修复方法及系统