(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211068445.4
(22)申请日 2022.09.02
(65)同一申请的已公布的文献号
申请公布号 CN 115169370 A
(43)申请公布日 2022.10.11
(73)专利权人 星宙数智科技 (珠海) 有限公司
地址 519031 广东省珠海市横琴新区环岛
东路1889号21栋 307室
(72)发明人 周艺恺 林余楚 古树桦
(74)专利代理 机构 深圳和睿宏景知识产权代理
有限公司 4 4836
专利代理师 张宏杰
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 16/35(2019.01)
G06F 40/211(2020.01)G06F 40/242(2020.01)
G06F 40/30(2020.01)
(56)对比文件
CN 112836525 A,2021.0 5.25
CN 113378513 A,2021.09.10
CN 110852117 A,2020.02.28
沙九 等.面向司法领域的高质量 开源藏汉
平行语料库构建. 《中文信息学报》 .2021,第3 5卷
(第11期),第51- 59页.
Nirmal Kumar et al. .Improvi ng the
performance of l ow-resource SMT usi ng
neural-i nspired sentence generator. 《2nd
Internati onal Conference o n Computer,
Communication, and Signal Proces sing
(ICCCSP 2018)》 .2018,第1-4页.
审查员 王永波
(54)发明名称
语料数据增强方法、 装置、 计算机设备及介
质
(57)摘要
本发明公开了一种语料数据增强方法、 装
置、 计算机设备及介质, 包括: 通过构建垂直领域
术语库, 基于垂直领域术语库进行数据筛选, 得
到包含术语关键字的单语语句, 将包含术语关键
字的单语语句作为初始语料, 采用初始语料对初
始预训练模型进行训练, 得到平行语料分类器,
平行语料分类器包括语料生 成器和语料判别器,
采用语料生成器生成单语数据, 得到第一源语言
数据, 通过反向翻译模型对第一源语 言数据进行
翻译, 得到垂直领域的第一目标语言数据, 将第
一源语言数据和第一目标语言数据作为平行语
料对输入到平行语料分类器进行分类, 并将分类
结果中符合预设条件的平行语料对作为目标平
行语料对。 采用本发明提高了增广得到的语料数
据对的质量。
权利要求书2页 说明书10页 附图4页
CN 115169370 B
2022.12.13
CN 115169370 B
1.一种语料 数据增强方法, 其特 征在于, 所述语料 数据增强方法包括:
构建垂直领域 术语库;
基于所述垂直领域术语库进行数据筛选, 得到包含术语关键字的单语语句, 将所述包
含术语关键 字的单语 语句作为初始语料;
采用所述初始语料对初始预训练模型进行训练, 得到平行语料分类器, 所述平行语料
分类器包括语料生成器和语料判别器;
采用所述语料生成器生成单语数据, 得到第一源语言数据;
通过反向翻译模型对所述第 一源语言数据进行翻译, 得到垂直领域的第 一目标语言数
据;
将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语
料分类器进行分类, 并将分类结果中符合预设条件的平行语料对作为目标平行语料对;
其中, 所述初始预训练模型包括第一预训练模型和第二预训练模型, 所述采用所述初
始语料对初始预训练模型进行训练, 得到所述平行语料分类 器包括:
采用所述初始语料对第一预训练模型进行训练, 得到第二预训练模型, 并将所述第二
预训练模型作为垂直领域的语料生成器, 所述第一预训练模型为Generative Pre‑
Training模型;
采用所述初始语料对第三预训练模型进行训练, 得到第 四预训练模型, 并将所述第 四
预训练模型作为垂直领域的语料判别器, 所述第三预训练模型为Ber t模型;
采用低资源垂直领域平行语料和通用平行语料, 对所述语料生成器和所述语料判别器
进行生成对抗训练, 得到垂直领域的所述平行语料分类 器。
2.如权利要求1所述的语料数据增强方法, 其特征在于, 所述采用所述初始语料对第 一
预训练模型进行训练, 得到第二预训练模型包括:
采用依存句法分析的方式, 对所述初始语料进行句法分析, 得到依存句法分析 结果;
将所述依存句法分析 结果和所述初始语料进行拼接得到训练语料;
采用所述训练语料对所述第一预训练模型进行训练, 得到所述第二预训练模型。
3.如权利要求2所述的语料数据增强方法, 其特征在于, 所述依存句法分析结果为依存
句法分析树, 所述将所述依存句法分析 结果和所述初始语料进行拼接得到训练语料包括:
从所述依存句法分析树中随机获取 预设数量的子树, 作为 候选子树;
采用通用占位符对所述 候选子树进行替换, 得到更新后的依存句法分析树;
采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接, 得到所述
训练语料。
4.如权利要求1至3任一项所述的语料数据增强方法, 其特征在于, 所述反向翻译模型
基于通用平行语料和低资源垂直领域平行 数据训练得到 。
5.一种语料 数据增强装置, 其特 征在于, 所述语料 数据增强装置包括:
术语库构建模块, 用于构建垂直领域 术语库;
语料筛选模块, 用于基于所述垂直领域术语库进行数据筛选, 得到包含术语关键字的
单语语句, 将所述包 含术语关键 字的单语 语句作为初始语料;
分类器训练模块, 用于采用所述初始语料对初始预训练模型进行训练, 得到平行语料
分类器, 所述平行语料分类 器包括语料生成器和语料判别器;权 利 要 求 书 1/2 页
2
CN 115169370 B
2数据生成模块, 用于采用所述语料生成器生成单语数据, 得到第一源语言数据;
数据翻译模块, 用于通过反向翻译模型对所述第一源语言数据进行翻译, 得到垂直领
域的第一目标语言数据;
语料对选取模块, 用于将所述第 一源语言数据和所述第 一目标语言数据作为平行语料
对输入到所述平行语料分类器进 行分类, 并将分类结果中符合预设条件的平行语料对作为
目标平行语料对;
其中, 所述分类 器训练模块包括:
第一训练子模块, 用于采用所述初始语料对第一预训练模型进行训练, 得到第二预训
练模型, 并将所述第二预训练模型作为垂直领域的语料生成器, 所述第一预训练模型为
Generative Pre‑Training模型;
第二训练子模块, 用于采用所述初始语料对第三预训练模型进行训练, 得到第 四预训
练模型, 并将所述第四预训练模型作为垂直领域的语料判别器, 所述第三预训练模型为
Bert模型;
生成对抗训练子模块, 用于采用低资源垂直领域平行语料和通用平行语料, 对所述语
料生成器和所述语料判别器进行生成对抗训练, 得到垂直领域的所述平行语料分类 器。
6.如权利要求5所述的语料 数据增强装置, 其特 征在于, 所述第一训练子模块包括:
句法分析单元, 用于采用依存句法分析的方式, 对所述初始语料进行句法分析, 得到依
存句法分析 结果;
句子拼接单元, 用于将所述依存句法分析结果和所述初始语料进行拼接得到训练语
料;
训练单元, 用于采用所述训练语料对所述第一预训练模型进行训练, 得到所述第二预
训练模型。
7.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器
上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至
4任一项所述的语料 数据增强方法。
8.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的语料数据增强方
法。权 利 要 求 书 2/2 页
3
CN 115169370 B
3
专利 语料数据增强方法、装置、计算机设备及介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:55上传分享