iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211117568.2 (22)申请日 2022.09.14 (71)申请人 科大讯飞 (苏州) 科技有限公司 地址 215000 江苏省苏州市苏州工业园区 金鸡湖大道8 8号E4单元 (72)发明人 吴瑞萦 梅林海 李直旭 陈志刚 郑新 (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 王海臣 (51)Int.Cl. G10L 13/08(2013.01) G10L 13/10(2013.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 正则化方法和装置, 以及正则化模 型的训练 方法和装置 (57)摘要 本申请提供了一种特殊字符的正则化方法 和装置、 特殊字符的正则化模型的训练方法和装 置、 计算机设备, 以及计算机可读存储介质。 其 中, 正则化方法包括: 将初始文本中的数字替换 为对应的数字类别, 得到目标文本, 初始文本包 括特殊字符的组合, 特殊字符包括数字, 数字类 别包括数字的长度信息和/或数字中所包含的歧 义数字的位置信息, 歧义数字是指具有不同发音 的数字; 对目标文本进行编码, 得到语义表示矩 阵; 基于语义表示矩阵确定每个特殊字符对应的 目标发音类别, 目标发音类别选自多个预设发音 类别, 每个特殊字符对应至少一个预设发音类 别。 该正则化方法解决了 现有技术中特殊字符的 正则化模型的训练样本的标注工作量较大的问 题。 权利要求书2页 说明书14页 附图9页 CN 115394286 A 2022.11.25 CN 115394286 A 1.一种特殊字符的正则化方法, 其特 征在于, 包括: 将初始文本中的数字替换为对应的数字类别, 得到目标文本, 所述初始文本包括特殊 字符的组合, 所述特殊字 符包括所述数字, 所述数字类别包括所述数字的长度信息和/或所 述数字中所包 含的歧义数字的位置信息, 所述歧义数字是指具有不同发音的数字; 对所述目标文本进行编码, 得到语义表示矩阵; 基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别, 所述目标发音类别 选 自多个预设发音类别, 每 个所述特殊字符对应至少一个所述预设发音类别。 2.根据权利要求1所述的正则化方法, 其特征在于, 所述对目标文本进行编码, 得到所 述目标文本的语义表示矩阵包括: 对所述目标文本的整体进行编码, 得到第一语义表示矩阵; 对所述目标文本中的所述特殊字符的组合进行编码, 得到第二语义表示矩阵; 基于所述第 二语义表示矩阵确定至少一个预定特征向量, 所述至少一个预定特征向量 包括起始位置特征向量、 结束位置特征向量、 注意力特征向量、 长度特征向量中的至少一 项; 确定所述第一语义表示矩阵和所述至少一个预定特征向量的整合特征矩阵为所述语 义表示矩阵。 3.根据权利要求1或2所述的正则化方法, 其特征在于, 所述基于所述语义表示矩阵确 定每个特殊字符对应的目标发音类别包括: 针对每个特殊字符, 基于所述语义表示矩阵确定所述特殊字符属于所述多个预设发音 类别中的每 个预设发音类别的概 率; 确定所述特殊字符在特殊字符 ‑预设发音类别的对应关系表中对应的至少一个预设发 音类别; 确定所述至少一个预设发音类别中所述概率最高的预设发音类别作为所述目标发音 类别。 4.根据权利要求1或2所述的正则化方法, 其特 征在于, 还 包括: 将所述初始文本与特殊字符 ‑预设发音类别的对应关系表进行匹配, 确定出所述初始 文本所包 含的特殊字符, 以及所述特殊字符对应的至少一个预设发音类别; 将连续的多个特殊字符确定为所述特殊字符的组合。 5.根据权利要求1或2所述的正则化方法, 其特 征在于, 还 包括: 将多个初始文本样本中的数字替换为对应的数字类别, 得到多个目标文本样本, 每个 所述初始文本样本包括特殊字符的组合, 至少一个所述初始文本样本包括所述数字; 所述 多个初始文本样本包正样本和负样本, 所述正样本中的特殊字符标注有发音类别标签, 所 述负样本中的特殊字符未标注发音类别标签, 所述发音类别标签选自所述多个预设发音类 别; 分别对所述多个目标文本样本进行编码, 得到多个 语义表示矩阵; 采用掩膜方式过 滤掉所述负 样本的语义表示矩阵; 基于所述 正样本的语义表示矩阵训练所述 正则化模型。 6.一种特殊字符的正则化模型的训练方法, 其特 征在于, 包括: 将多个初始文本样本中的数字替换为对应的数字类别, 得到多个目标文本样本, 每个权 利 要 求 书 1/2 页 2 CN 115394286 A 2所述初始文本样本包括特殊字符的组合, 至少一个所述初始文本样本包括所述数字; 所述 数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位置信息, 所述 歧义数字是指具有不同发音的数字; 至少一个所述初始文本样本中的所述特殊字符标注有 发音类别标签, 所述发音类别标签选 自多个预设发音类别, 每个所述特殊字符对应至少一 个所述预设发音类别; 分别对所述多个目标文本样本进行编码, 得到多个 语义表示矩阵; 基于所述多个 语义表示矩阵训练所述 正则化模型。 7.一种特殊字符的正则化装置, 其特 征在于, 包括: 预处理模块, 用于将初始文本 中的数字替换为对应的数字类别, 得到目标文本, 所述初 始文本包括特殊字符的组合, 所述特殊字符包括所述数字, 所述数字类别包括所述数字的 长度信息和/或所述数字中所包含的歧义数字的位置信息, 所述歧义数字是指具有不同发 音的数字; 编码模块, 用于对所述目标文本进行编码, 得到语义表示矩阵; 确定模块, 用于基于所述语义表示矩阵确定每个特殊字符对应的目标发音类别, 所述 目标发音类别选自多个预设发音类别, 每个所述特殊字符对应至少一个所述预设发音类 别。 8.一种特殊字符的正则化模型的训练装置, 其特 征在于, 包括: 预处理模块, 用于将多个初始文本样本中的数字替换为对应的数字类别, 得到多个目 标文本样本, 所述初始文本样本包括特殊字符的组合, 至少一个所述初始文本样本包括所 述数字; 所述数字类别包括所述数字的长度信息和/或所述数字中所包含的歧义数字的位 置信息, 所述歧义数字是指具有不同发音的数字; 至少一个所述初始文本样本中的所述特 殊字符标注有发音类别标签, 所述发音类别标签选 自多个预设发音类别, 每个所述特殊字 符对应至少一个所述预设发音类别; 编码模块, 用于分别对所述多个目标文本样本进行编码, 得到多个 语义表示矩阵; 训练模块, 用于基于所述多个 语义表示矩阵训练所述 正则化模型。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器上被所述处理器执行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至5中任 一项所述特殊字符的正则化方法的步骤和/或如权利要求6所述特殊字符的正则化模型 的 训练方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求 1至5中任一项 所述特殊字符的正则化方法的步骤和/或如 权利要求6所述特殊字符的正则化模型的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 115394286 A 3
专利 正则化方法和装置,以及正则化模型的训练方法和装置
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:51
上传分享
举报
下载
原文档
(925.7 KB)
分享
友情链接
GM-T 0036-2014 采用非接触卡的门禁系统密码应用技术指南.pdf
GB-T 17245-2004 成年人人体惯性参数.pdf
DB37-T 4646.4—2023 公共数据 数据治理规范 第4部分:资源服务目录 山东省.pdf
商用密码检测机构管理办法(征求意见稿).pdf
DB3402-T 25-2022 12355青少年服务台服务规范 芜湖市.pdf
GB-T 32922-2016 信息安全技术 IPSec VPN安全接入基本要求与实施指南.pdf
NY-T 4196.1-2022 农药登记环境风险评估标准场景 第1部分:场景构建方法.pdf
GB-T 28258-2012 制药机械产品分类及编码.pdf
GB-T 8982-2009 医用及航空呼吸用氧.pdf
T-ZBDIA 0001—2020 多功能装配式铝合金门窗系统.pdf
辽宁省矛盾纠纷多元预防化解条例.pdf
T-NIFA 26—2023 移动金融客户端应用软件上架资质指引.pdf
GB 30000.20-2013 化学品分类和标签规范 第20部分:严重眼损伤-眼刺激.pdf
GB-T 18238.1-2000 信息技术 安全技术 散列函数 第1部分 概述.pdf
阿里巴巴 毕玄 从自动化到智能化的阿里运维体系.pdf
GB-T 15609-2008 彩色显示器色度测量方法.pdf
T-WAPIA 045.4—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第4 部分:采用预共享密钥的原子密钥建立与实体鉴别.pdf
GA-T 841-2021 基于离子迁移谱技术的痕量毒品-炸药探测仪通用技术要求.pdf
绿盟 新型IoT机顶盒恶意软件Rowdy网络分析报告.pdf
GB-T 41944-2022 丁基橡胶阻尼片.pdf
1
/
26
评价文档
赞助3元 点击下载(925.7 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。