(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211134542.9
(22)申请日 2022.09.19
(71)申请人 上海大学
地址 200436 上海市宝山区上 大路99号
(72)发明人 武星 张源
(74)专利代理 机构 上海申汇 专利代理有限公司
31001
专利代理师 翁若莹 徐颖
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/126(2020.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G10L 15/26(2006.01)
G10L 15/16(2006.01)
G10L 15/06(2013.01)
(54)发明名称
基于表征学习的中文自动语音识别文本修
复方法及系统
(57)摘要
本发明涉及一种基于表征学习的中文自动
语音识别文本修复方法及系统, 基本BERT的中文
标点符号预测模 型, 相比于 现有的中文标点符号
模型, 本发明使用了 更高效的RoBERTa预测模型,
对原BERT预 测模型进行微调 , 并且使 用
Transformer来整合特征嵌入, 是目前完整且高
效的中文标点符号预测任务的方法和系统; 提出
的文本纠错模型中, 使用双向LS TM结构提取了字
音和笔画特征的嵌入层, 借助于双向LSTM的记忆
能力更好地解决了长程依赖问题; 提出的模型将
中文标点符号和 中文纠错模型两个任务进行结
合, 形成了一个端到端的中文ASR输出本文修复
系统, 从两个角度完全解决ASR输 出文本的错误,
提高语音 文本的正确率。
权利要求书3页 说明书8页 附图4页
CN 115438154 A
2022.12.06
CN 115438154 A
1.一种基于表征学习的中文自动语音识别文本修复方法, 其特征在于, 中文自动语音
识别出的中文送入BERT中文分词器进 行编码后输出词向量, 词向量送入中文标点符号预测
模型进行标点符号预测, 首先词向量分别通过字编码嵌入、 拼音嵌入和字形嵌入编码和解
码后送入Transformer网络, Transformer 网络对字编码嵌入、 拼音嵌入和字形嵌入进行自
注意力机制的学习, 整合字编码嵌入层、 拼音嵌入层和字形嵌入层的信息的同时将嵌入层
的维度拉伸成分类模块输入的维度, 分类模块输出每个字的之后最大概率的标点符号的类
别; 中文标点符号预测模型输出带有标点符号的句 子送入到中文纠错模型中进行纠错, 在
中文纠错模型中输入句子先使用基于词表的分词器得到字符嵌入和位置编 码嵌入, 同时输
入句子送入双向LSTM的网络编码器中得到字音嵌入和笔画嵌入, 将字符嵌入、 位置编码嵌
入、 字音嵌入和字形嵌入进入融合嵌入后, 送入基于Tr ansformer结构的中文纠错网络中,
得到修复后的文本 。
2.一种基于表征学习的中文自动语音识别文本修复系统, 其特征在于, 为中文标点符
号预测模型和中文纠错模型封装成一个端到端的中文文本修复模型, 输入的中文文本送中
文标点符号预测模型, 中文标点符号预测模型输出的带有标点符号的句子送中文纠错模型
纠错, 获得修复后的文本;
所述中文标点符号预测模型包括BERT中文分词器、 RoBERTa预测模型、 ChineseBERT预
测模型、 Transformer网络和分类模块;
所述BERT中文分词器: 对输入的中文文本中的每一个中文词进行编码从而获得词向
量;
所述RoBERTa预测模型: 将词向量编码成通过预训练任务得到的字编码向量, 即获得字
编码嵌入;
所述ChineseBERT预测模型: 提取词向量的字音特征和字形特征, 得到拼音嵌入和字形
嵌入;
所述Transformer网络: 对字编码嵌入、 拼音嵌入和字形嵌入进行自注意力机制的学
习, 整合字编码嵌入层、 拼音嵌入层和字形嵌入层的信息的同时将嵌入层的维度拉伸成分
类模块输入的维度;
所述分类模块: 由两层线性层和两层Dropout层来进行叠加, 预测每一个字符编码对于
标点分类的概 率, 输出每 个字的之后最大概 率的标点符号的类别;
所述中文纠错模型采用PLOM E模型。
3.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统, 其特征在于,
所述RoBERTa预测模 型采用动态掩码替换原BERT模 型中的静态掩码和取消BERT模 型中的下
文预测任务, 采用的掩码策略包括0%掩码、 15%掩码以及3 0%掩码。
4.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统, 其特征在于,
所述ChineseBERT预测模 型中拼音嵌入: 通过开源工具获取每个字的拼音, 将每个字的拼音
通过一层宽度为 二的CNN网络进行 卷积, 然后通过最大池化层获得拼音嵌入;
字形嵌入: 使用三种中文字体的字形图片, 每一个字形图片的大小为24*24, 每个字的
三种中文字体组合成24*24*3的张量, 然后使用全卷积神经网络对张量进行拉伸形成字形
嵌入。
5.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统, 其特征在于,权 利 要 求 书 1/3 页
2
CN 115438154 A
2所述Transformer网络注意力机制的核心公式如下式所示:
式中: Q是查询矩阵; K是注意力机制关注的信息; V是原始输入值通过线性变化之后的
矩阵, 用来保存输入特征, Q与K的转置KT进行点乘计算出对于Q在V上的注意力 权重; dk是多
头注意力机制算法中的head大小, 利用
进行尺度化的目的是避免Q与KT的点积太大, 一
旦点积过大时, 经过Softmax函数进行反向传播的梯度计算, 将结果平 滑到0‑1区间。
6.根据权利要求2所述基于表征学习的中文自动语音识别文本修复系统, 其特征在于,
所述中文纠错模型输入包括四个嵌入层: 字符嵌入、 位置嵌入、 拼音嵌入和笔画嵌入, 通过
查找表和预训练分词器, 获得字符嵌入和位置嵌入; 采用BiLSTM编码器用来表示拼音嵌入
和笔画嵌入, 字符嵌入、 位置嵌入、 拼音嵌入和笔画嵌入输出通过融合嵌入融合后, 送入12
层的Transformer后得到 输出。
7.一种基于表征学习的中文自动语音识别文本修复系统训练方法, 其特征在于, 包括
如下步骤:
1)选择数据集, 选择LC中文新闻数据集、 Json版社区问答数据集以及SIGHAN 2015 CSC
Datasets三个数据集;
2)对样本数据集进行预处理, 对中文标点符号数据集中的文本标点符号异常情况进行
清洗, 其次去除中文标点符号数据集中BERT预测模型编码器不能识别的字符, 最后使用
BERT预测模型对中文标点符号数据集中的文本进 行词向量的编码, 作为微调预测模型的输
入;
3)训练阶段, 分别对中文标点符号预测模型以及对中文纠错模型进行训练, 在训练两
个模型的同时, 提取两个模型最终得到的嵌入层输出 的相对距离, 将该距离进行平均归一
化处理, 同时加入到 两个模型自身训练时的损失中, 达 到两个模型同步训练。
8.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法, 其
特征在于, 所述LC中文新闻数据集以及Json版社区问答数据集作为中文 标点符号预测模 型
训练的数据集, 所述SIGHAN 2015 CSC Datasets作为中文纠错模型训练的数据集, 数据集
按训练识别要求分为训练集、 验证集和 测试集。
9.根据权利要求7所述基于表征学习的中文自动语音识别文本修复系统训练方法, 其
特征在于, 所述中文标点符号预测模型的训练, 具体包括以下步骤:
A01、 将预处理好的中文文本输入到BERT中文分词器中, BERT中文分词器将每一个中文
进行编码, 并且给每句话的起末位置添加标志符, 这样就对之后每一次输入的编码的长度
进行固定;
A02、 将得到的词向量分别输入到RoBERTa预测模型和ChineseBERT预测模型中,
RoBERTa预测模 型将词向量编码成通过预训练任务得到的字编码向量, 即字编码嵌入, 字编
码向量包含字与字之间的关系以便后续的下游任务; ChineseBERT预测模型提取词向量的
包括字音特征和字形特征的中文 特征, 得到拼音嵌入和字形嵌入, 通过RoBERTa预测模 型和
ChineseBERT预测模型, 得到三个嵌入层: 字编码嵌入、 拼音嵌入和字形嵌入;权 利 要 求 书 2/3 页
3
CN 115438154 A
3
专利 基于表征学习的中文自动语音识别文本修复方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:37上传分享