iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211117568.2 (22)申请日 2022.09.14 (71)申请人 科大讯飞 (苏州) 科技有限公司 地址 215000 江苏省苏州市苏州工业园区 金鸡湖大道8 8号E4单元 (72)发明人 吴瑞萦 梅林海 李直旭 陈志刚  郑新  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 王海臣 (51)Int.Cl. G10L 13/08(2013.01) G10L 13/10(2013.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 正则化方法和装置, 以及正则化模 型的训练 方法和装置 (57)摘要 本申请提供了一种特殊字符的正则化方法 和装置、 特殊字符的正则化模型的训练方法和装 置、 计算机设备, 以及计算机可读存储介质。 其 中, 正则化方法包括: 将初始文本中的数字替换 为对应的数字类别, 得到目标文本, 初始文本包 括特殊字符的组合, 特殊字符包括数字, 数字类 别包括数字的长度信息和/或数字中所包含的歧 义数字的位置信息, 歧义数字是指具有不同发音 的数字; 对目标文本进行编码, 得到语义表示矩 阵; 基于语义表示矩阵确定每个特殊字符对应的 目标发音类别, 目标发音类别选自多个预设发音 类别, 每个特殊字符对应至少一个预设发音类 别。 该正则化方法解决了 现有技术中特殊字符的 正则化模型的训练样本的标注工作量较大的问 题。 权利要求书2页 说明书14页 附图9页 CN 115394286 A 2022.11.25 CN 115394286 A 1.一种特殊字符的正则化方法, 其特 征在于, 包括: 将初始文本中的数字替换为对应的数字类别, 得到目标文本, 所述初始文本包括特殊 字符的组合, 所述特殊字 符包括所述数字, 所述数字类别包括所述数字的长度信息和/或所 述数字中所包 含的歧义数字的位置信息, 所述歧义数字是指具有不同发音的数字; 对所述目标文本进行编码, 得到语义表示矩阵; 基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别, 所述目标发音类别 选 自多个预设发音类别, 每 个所述特殊字符对应至少一个所述预设发音类别。 2.根据权利要求1所述的正则化方法, 其特征在于, 所述对目标文本进行编码, 得到所 述目标文本的语义表示矩阵包括: 对所述目标文本的整体进行编码, 得到第一语义表示矩阵; 对所述目标文本中的所述特殊字符的组合进行编码, 得到第二语义表示矩阵; 基于所述第 二语义表示矩阵确定至少一个预定特征向量, 所述至少一个预定特征向量 包括起始位置特征向量、 结束位置特征向量、 注意力特征向量、 长度特征向量中的至少一 项; 确定所述第一语义表示矩阵和所述至少一个预定特征向量的整合特征矩阵为所述语 义表示矩阵。 3.根据权利要求1或2所述的正则化方法, 其特征在于, 所述基于所述语义表示矩阵确 定每个特殊字符对应的目标发音类别包括: 针对每个特殊字符, 基于所述语义表示矩阵确定所述特殊字符属于所述多个预设发音 类别中的每 个预设发音类别的概 率; 确定所述特殊字符在特殊字符 ‑预设发音类别的对应关系表中对应的至少一个预设发 音类别; 确定所述至少一个预设发音类别中所述概率最高的预设发音类别作为所述目标发音 类别。 4.根据权利要求1或2所述的正则化方法, 其特 征在于, 还 包括: 将所述初始文本与特殊字符 ‑预设发音类别的对应关系表进行匹配, 确定出所述初始 文本所包 含的特殊字符, 以及所述特殊字符对应的至少一个预设发音类别; 将连续的多个特殊字符确定为所述特殊字符的组合。 5.根据权利要求1或2所述的正则化方法, 其特 征在于, 还 包括: 将多个初始文本样本中的数字替换为对应的数字类别, 得到多个目标文本样本, 每个 所述初始文本样本包括特殊字符的组合, 至少一个所述初始文本样本包括所述数字; 所述 多个初始文本样本包正样本和负样本, 所述正样本中的特殊字符标注有发音类别标签, 所 述负样本中的特殊字符未标注发音类别标签, 所述发音类别标签选自所述多个预设发音类 别; 分别对所述多个目标文本样本进行编码, 得到多个 语义表示矩阵; 采用掩膜方式过 滤掉所述负 样本的语义表示矩阵; 基于所述 正样本的语义表示矩阵训练所述 正则化模型。 6.一种特殊字符的正则化模型的训练方法, 其特 征在于, 包括: 将多个初始文本样本中的数字替换为对应的数字类别, 得到多个目标文本样本, 每个权 利 要 求 书 1/2 页 2 CN 115394286 A 2所述初始文本样本包括特殊字符的组合, 至少一个所述初始文本样本包括所述数字; 所述 数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位置信息, 所述 歧义数字是指具有不同发音的数字; 至少一个所述初始文本样本中的所述特殊字符标注有 发音类别标签, 所述发音类别标签选 自多个预设发音类别, 每个所述特殊字符对应至少一 个所述预设发音类别; 分别对所述多个目标文本样本进行编码, 得到多个 语义表示矩阵; 基于所述多个 语义表示矩阵训练所述 正则化模型。 7.一种特殊字符的正则化装置, 其特 征在于, 包括: 预处理模块, 用于将初始文本 中的数字替换为对应的数字类别, 得到目标文本, 所述初 始文本包括特殊字符的组合, 所述特殊字符包括所述数字, 所述数字类别包括所述数字的 长度信息和/或所述数字中所包含的歧义数字的位置信息, 所述歧义数字是指具有不同发 音的数字; 编码模块, 用于对所述目标文本进行编码, 得到语义表示矩阵; 确定模块, 用于基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别, 所述 目标发音类别选自多个预设发音类别, 每个所述特殊字符对应至少一个所述预设发音类 别。 8.一种特殊字符的正则化模型的训练装置, 其特 征在于, 包括: 预处理模块, 用于将多个初始文本样本中的数字替换为对应的数字类别, 得到多个目 标文本样本, 所述初始文本样本包括特殊字符的组合, 至少一个所述初始文本样本包括所 述数字; 所述数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位 置信息, 所述歧义数字是指具有不同发音的数字; 至少一个所述初始文本样本中的所述特 殊字符标注有发音类别标签, 所述发音类别标签选 自多个预设发音类别, 每个所述特殊字 符对应至少一个所述预设发音类别; 编码模块, 用于分别对所述多个目标文本样本进行编码, 得到多个 语义表示矩阵; 训练模块, 用于基于所述多个 语义表示矩阵训练所述 正则化模型。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器上被所述处理器执行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至5中任 一项所述特殊字符的正则化方法的步骤和/或如权利要求6所述特殊字符的正则化模型 的 训练方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求 1至5中任一项 所述特殊字符的正则化方法的步骤和/或如 权利要求6所述特殊字符的正则化模型的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 115394286 A 3

PDF文档 专利 正则化方法和装置,以及正则化模型的训练方法和装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 正则化方法和装置,以及正则化模型的训练方法和装置 第 1 页 专利 正则化方法和装置,以及正则化模型的训练方法和装置 第 2 页 专利 正则化方法和装置,以及正则化模型的训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。