专利 正则化方法和装置，以及正则化模型的训练方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211117568.2 (22)申请日 2022.09.14 (71)申请人科大讯飞（苏州）科技有限公司地址 215000 江苏省苏州市苏州工业园区金鸡湖大道8 8号E4单元 (72)发明人吴瑞萦　梅林海　李直旭　陈志刚　郑新　 (74)专利代理机构北京布瑞知识产权代理有限公司 11505 专利代理师王海臣 (51)Int.Cl. G10L 13/08(2013.01) G10L 13/10(2013.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称正则化方法和装置，以及正则化模型的训练方法和装置 (57)摘要本申请提供了一种特殊字符的正则化方法和装置、特殊字符的正则化模型的训练方法和装置、计算机设备，以及计算机可读存储介质。其中，正则化方法包括：将初始文本中的数字替换为对应的数字类别，得到目标文本，初始文本包括特殊字符的组合，特殊字符包括数字，数字类别包括数字的长度信息和/或数字中所包含的歧义数字的位置信息，歧义数字是指具有不同发音的数字；对目标文本进行编码，得到语义表示矩阵；基于语义表示矩阵确定每个特殊字符对应的目标发音类别，目标发音类别选自多个预设发音类别，每个特殊字符对应至少一个预设发音类别。该正则化方法解决了现有技术中特殊字符的正则化模型的训练样本的标注工作量较大的问题。权利要求书2页说明书14页附图9页 CN 115394286 A 2022.11.25 CN 115394286 A 1.一种特殊字符的正则化方法，其特征在于，包括：将初始文本中的数字替换为对应的数字类别，得到目标文本，所述初始文本包括特殊字符的组合，所述特殊字符包括所述数字，所述数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位置信息，所述歧义数字是指具有不同发音的数字；对所述目标文本进行编码，得到语义表示矩阵；基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别，所述目标发音类别选自多个预设发音类别，每个所述特殊字符对应至少一个所述预设发音类别。 2.根据权利要求1所述的正则化方法，其特征在于，所述对目标文本进行编码，得到所述目标文本的语义表示矩阵包括：对所述目标文本的整体进行编码，得到第一语义表示矩阵；对所述目标文本中的所述特殊字符的组合进行编码，得到第二语义表示矩阵；基于所述第二语义表示矩阵确定至少一个预定特征向量，所述至少一个预定特征向量包括起始位置特征向量、结束位置特征向量、注意力特征向量、长度特征向量中的至少一项；确定所述第一语义表示矩阵和所述至少一个预定特征向量的整合特征矩阵为所述语义表示矩阵。 3.根据权利要求1或2所述的正则化方法，其特征在于，所述基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别包括：针对每个特殊字符，基于所述语义表示矩阵确定所述特殊字符属于所述多个预设发音类别中的每个预设发音类别的概率；确定所述特殊字符在特殊字符 ‑预设发音类别的对应关系表中对应的至少一个预设发音类别；确定所述至少一个预设发音类别中所述概率最高的预设发音类别作为所述目标发音类别。 4.根据权利要求1或2所述的正则化方法，其特征在于，还包括：将所述初始文本与特殊字符 ‑预设发音类别的对应关系表进行匹配，确定出所述初始文本所包含的特殊字符，以及所述特殊字符对应的至少一个预设发音类别；将连续的多个特殊字符确定为所述特殊字符的组合。 5.根据权利要求1或2所述的正则化方法，其特征在于，还包括：将多个初始文本样本中的数字替换为对应的数字类别，得到多个目标文本样本，每个所述初始文本样本包括特殊字符的组合，至少一个所述初始文本样本包括所述数字；所述多个初始文本样本包正样本和负样本，所述正样本中的特殊字符标注有发音类别标签，所述负样本中的特殊字符未标注发音类别标签，所述发音类别标签选自所述多个预设发音类别；分别对所述多个目标文本样本进行编码，得到多个语义表示矩阵；采用掩膜方式过滤掉所述负样本的语义表示矩阵；基于所述正样本的语义表示矩阵训练所述正则化模型。 6.一种特殊字符的正则化模型的训练方法，其特征在于，包括：将多个初始文本样本中的数字替换为对应的数字类别，得到多个目标文本样本，每个权　利　要　求　书 1/2 页 2 CN 115394286 A 2所述初始文本样本包括特殊字符的组合，至少一个所述初始文本样本包括所述数字；所述数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位置信息，所述歧义数字是指具有不同发音的数字；至少一个所述初始文本样本中的所述特殊字符标注有发音类别标签，所述发音类别标签选自多个预设发音类别，每个所述特殊字符对应至少一个所述预设发音类别；分别对所述多个目标文本样本进行编码，得到多个语义表示矩阵；基于所述多个语义表示矩阵训练所述正则化模型。 7.一种特殊字符的正则化装置，其特征在于，包括：预处理模块，用于将初始文本中的数字替换为对应的数字类别，得到目标文本，所述初始文本包括特殊字符的组合，所述特殊字符包括所述数字，所述数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位置信息，所述歧义数字是指具有不同发音的数字；编码模块，用于对所述目标文本进行编码，得到语义表示矩阵；确定模块，用于基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别，所述目标发音类别选自多个预设发音类别，每个所述特殊字符对应至少一个所述预设发音类别。 8.一种特殊字符的正则化模型的训练装置，其特征在于，包括：预处理模块，用于将多个初始文本样本中的数字替换为对应的数字类别，得到多个目标文本样本，所述初始文本样本包括特殊字符的组合，至少一个所述初始文本样本包括所述数字；所述数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位置信息，所述歧义数字是指具有不同发音的数字；至少一个所述初始文本样本中的所述特殊字符标注有发音类别标签，所述发音类别标签选自多个预设发音类别，每个所述特殊字符对应至少一个所述预设发音类别；编码模块，用于分别对所述多个目标文本样本进行编码，得到多个语义表示矩阵；训练模块，用于基于所述多个语义表示矩阵训练所述正则化模型。 9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述特殊字符的正则化方法的步骤和/或如权利要求6所述特殊字符的正则化模型的训练方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1至5中任一项所述特殊字符的正则化方法的步骤和/或如权利要求6所述特殊字符的正则化模型的训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 115394286 A 3

专利 正则化方法和装置，以及正则化模型的训练方法和装置

专利正则化方法和装置，以及正则化模型的训练方法和装置