专利 语料数据增强方法、装置、计算机设备及介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211068445.4 (22)申请日 2022.09.02 (65)同一申请的已公布的文献号申请公布号 CN 115169370 A (43)申请公布日 2022.10.11 (73)专利权人星宙数智科技（珠海）有限公司地址 519031 广东省珠海市横琴新区环岛东路1889号21栋 307室 (72)发明人周艺恺　林余楚　古树桦　 (74)专利代理机构深圳和睿宏景知识产权代理有限公司 4 4836 专利代理师张宏杰 (51)Int.Cl. G06F 40/58(2020.01) G06F 16/35(2019.01) G06F 40/211(2020.01)G06F 40/242(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 112836525 A,2021.0 5.25 CN 113378513 A,2021.09.10 CN 110852117 A,2020.02.28 沙九等.面向司法领域的高质量开源藏汉平行语料库构建. 《中文信息学报》 .2021,第3 5卷 (第11期),第51- 59页. Nirmal Kumar et al. .Improvi ng the performance of l ow-resource SMT usi ng neural-i nspired sentence generator. 《2nd Internati onal Conference o n Computer, Communication, and Signal Proces sing (ICCCSP 2018)》 .2018,第1-4页. 审查员王永波 (54)发明名称语料数据增强方法、装置、计算机设备及介质 (57)摘要本发明公开了一种语料数据增强方法、装置、计算机设备及介质，包括：通过构建垂直领域术语库，基于垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将包含术语关键字的单语语句作为初始语料，采用初始语料对初始预训练模型进行训练，得到平行语料分类器，平行语料分类器包括语料生成器和语料判别器，采用语料生成器生成单语数据，得到第一源语言数据，通过反向翻译模型对第一源语言数据进行翻译，得到垂直领域的第一目标语言数据，将第一源语言数据和第一目标语言数据作为平行语料对输入到平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对。采用本发明提高了增广得到的语料数据对的质量。权利要求书2页说明书10页附图4页 CN 115169370 B 2022.12.13 CN 115169370 B 1.一种语料数据增强方法，其特征在于，所述语料数据增强方法包括：构建垂直领域术语库；基于所述垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将所述包含术语关键字的单语语句作为初始语料；采用所述初始语料对初始预训练模型进行训练，得到平行语料分类器，所述平行语料分类器包括语料生成器和语料判别器；采用所述语料生成器生成单语数据，得到第一源语言数据；通过反向翻译模型对所述第一源语言数据进行翻译，得到垂直领域的第一目标语言数据；将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对；其中，所述初始预训练模型包括第一预训练模型和第二预训练模型，所述采用所述初始语料对初始预训练模型进行训练，得到所述平行语料分类器包括：采用所述初始语料对第一预训练模型进行训练，得到第二预训练模型，并将所述第二预训练模型作为垂直领域的语料生成器，所述第一预训练模型为Generative Pre‑ Training模型；采用所述初始语料对第三预训练模型进行训练，得到第四预训练模型，并将所述第四预训练模型作为垂直领域的语料判别器，所述第三预训练模型为Ber t模型；采用低资源垂直领域平行语料和通用平行语料，对所述语料生成器和所述语料判别器进行生成对抗训练，得到垂直领域的所述平行语料分类器。 2.如权利要求1所述的语料数据增强方法，其特征在于，所述采用所述初始语料对第一预训练模型进行训练，得到第二预训练模型包括：采用依存句法分析的方式，对所述初始语料进行句法分析，得到依存句法分析结果；将所述依存句法分析结果和所述初始语料进行拼接得到训练语料；采用所述训练语料对所述第一预训练模型进行训练，得到所述第二预训练模型。 3.如权利要求2所述的语料数据增强方法，其特征在于，所述依存句法分析结果为依存句法分析树，所述将所述依存句法分析结果和所述初始语料进行拼接得到训练语料包括：从所述依存句法分析树中随机获取预设数量的子树，作为候选子树；采用通用占位符对所述候选子树进行替换，得到更新后的依存句法分析树；采用句子连接符对所述更新后的依存句法分析树和所述初始语料进行拼接，得到所述训练语料。 4.如权利要求1至3任一项所述的语料数据增强方法，其特征在于，所述反向翻译模型基于通用平行语料和低资源垂直领域平行数据训练得到。 5.一种语料数据增强装置，其特征在于，所述语料数据增强装置包括：术语库构建模块，用于构建垂直领域术语库；语料筛选模块，用于基于所述垂直领域术语库进行数据筛选，得到包含术语关键字的单语语句，将所述包含术语关键字的单语语句作为初始语料；分类器训练模块，用于采用所述初始语料对初始预训练模型进行训练，得到平行语料分类器，所述平行语料分类器包括语料生成器和语料判别器；权　利　要　求　书 1/2 页 2 CN 115169370 B 2数据生成模块，用于采用所述语料生成器生成单语数据，得到第一源语言数据；数据翻译模块，用于通过反向翻译模型对所述第一源语言数据进行翻译，得到垂直领域的第一目标语言数据；语料对选取模块，用于将所述第一源语言数据和所述第一目标语言数据作为平行语料对输入到所述平行语料分类器进行分类，并将分类结果中符合预设条件的平行语料对作为目标平行语料对；其中，所述分类器训练模块包括：第一训练子模块，用于采用所述初始语料对第一预训练模型进行训练，得到第二预训练模型，并将所述第二预训练模型作为垂直领域的语料生成器，所述第一预训练模型为 Generative Pre‑Training模型；第二训练子模块，用于采用所述初始语料对第三预训练模型进行训练，得到第四预训练模型，并将所述第四预训练模型作为垂直领域的语料判别器，所述第三预训练模型为 Bert模型；生成对抗训练子模块，用于采用低资源垂直领域平行语料和通用平行语料，对所述语料生成器和所述语料判别器进行生成对抗训练，得到垂直领域的所述平行语料分类器。 6.如权利要求5所述的语料数据增强装置，其特征在于，所述第一训练子模块包括：句法分析单元，用于采用依存句法分析的方式，对所述初始语料进行句法分析，得到依存句法分析结果；句子拼接单元，用于将所述依存句法分析结果和所述初始语料进行拼接得到训练语料；训练单元，用于采用所述训练语料对所述第一预训练模型进行训练，得到所述第二预训练模型。 7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1至 4任一项所述的语料数据增强方法。 8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的语料数据增强方法。权　利　要　求　书 2/2 页 3 CN 115169370 B 3

专利 语料数据增强方法、装置、计算机设备及介质

专利语料数据增强方法、装置、计算机设备及介质