iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211238128.2 (22)申请日 2022.10.11 (71)申请人 深圳擎盾信息科技有限公司 地址 518057 广东省深圳市南 山区粤海街 道麻岭社区科研路9号比克科技大厦 1201B (72)发明人 顾敏 杜向阳 (74)专利代理 机构 深圳市精英专利事务所 44242 专利代理师 戴艳艳 (51)Int.Cl. G06F 40/186(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06Q 50/18(2012.01) (54)发明名称 合同文书的数据增广方法、 装置、 计算机设 备及存储介质 (57)摘要 本申请涉及一种合同文书的数据增广方法、 装置、 计算机设备及存储介质, 其中方法包括获 取合同领域数据, 并合同领域数据分成标注样本 数据和未标记 合同文书数据; 基于标注样本数据 和未标记合同文书数据, 构建微调数据, 并通过 微调数据对 预训练语言模型进行微调处理, 得到 微调后的预训练语言模型; 获取原始合同文件, 并对原始合同文件进行样本生 成处理, 得到新样 本数据; 对新样本数据进行初步筛选和语义筛 选, 得到基础样本数据; 基于标注样本数据, 识别 基础样本数据中的要素标签序列, 并基于要素标 签序列, 对基础样本数据进行筛选和迭代训练, 得到目标数据。 本发明实现对合同文书进行数据 增广, 同时减少标注噪声 对训练模型的影响。 权利要求书3页 说明书9页 附图5页 CN 115329740 A 2022.11.11 CN 115329740 A 1.一种合同文 书的数据增广方法, 其特 征在于, 包括: 获取合同领域数据, 并所述合同领域数据分成标注样本数据和未标记合同文书数据, 其中, 所述标注样本数据中包括样本标签; 基于所述标注样本数据和所述未标记合同文书数据, 构建微调数据, 并通过所述微调 数据对预训练语言模型进行微调处 理, 得到微调后的预训练语言模型; 获取原始合同文件, 并通过所述微调后的预训练语言模型对所述原始合同文件进行样 本生成处 理, 得到新样本数据; 对所述新样本数据进行初步筛 选和语义筛 选, 得到基础样本数据; 基于所述标注样本数据, 识别所述基础样本数据中的要素标签序列, 并基于所述要素 标签序列, 对所述基础样本数据进行筛 选和迭代训练, 得到目标 数据。 2.根据权利要求1所述的合同文书的数据增广方法, 其特征在于, 所述基于所述标注样 本数据和所述未标记合同文书数据, 构建微调数据, 并通过所述微调数据对预训练语言模 型进行微调处 理, 得到微调后的预训练语言模型, 包括: 按照所述样本标签与文本作为组合的方式, 将所述标注样本数据和所述未标记合同文 书数据转 化为多个所述组合, 得到所述 微调数据; 通过所述微调数据对所述预训练语言模型进行微调处理, 得到所述微调后的预训练语 言模型, 其中, 所述 微调后的预训练语言模型中生成所述 微调数据对应的生成数据; 将所述微调数据与 所述微调数据对应的生成数据作为句子组合, 通过所述微调后的预 训练语言模型生成句子 。 3.根据权利要求1所述的合同文书的数据增广方法, 其特征在于, 所述获取原始合同文 件, 并通过所述微调后的预训练语言模型对所述原始合同文件进行样本生成处理, 得到新 样本数据, 包括: 获取所述原始合同文件; 通过预设模型, 生成所述原始合同文件对应的遮蔽文件, 并通过所述微调后的预训练 语言模型对所述遮蔽文件, 得到候选数据集; 基于所述样本标签和所述原始合 同文件构建模板prompt, 并基于所述模板prompt, 通 过所述微调后的预训练语言模型对所述候选数据集进 行样本生成处理, 得到所述新样本数 据。 4.根据权利要求3所述的合同文书的数据增广方法, 其特征在于, 所述通过预设模型, 生成所述原始合同文件对应的遮蔽文件, 并通过所述微调后的预训练语言模型对所述遮蔽 文件, 得到候选数据集, 包括: 对所述原始合同文件插入个预设字符, 生成第一重建文件, 且基于所述预设模型生成 所述第一重建文件 对应的第一遮蔽文件; 通过随机遮蔽所述原始合同文件的非停用词, 得到第二重建文件, 并基于所述预设模 型生成所述第二重建文件 对应的第二遮蔽文件; 通过所述微调后的预训练语言模型对所述第一遮蔽文件和所述第二遮蔽文件进行样 本生成处 理, 得到样本生成数据集; 通过对所述样本生成数据集进行筛 选, 得到所述 候选数据集。 5.根据权利要求1所述的合同文书的数据增广方法, 其特征在于, 所述对所述新样本数权 利 要 求 书 1/3 页 2 CN 115329740 A 2据进行初步筛 选和语义筛 选, 得到基础样本数据, 包括: 识别所述新样本数据与所述原始合同文件中的核心谓词和否定词, 并判定所述核心谓 词和所述否 定词是否发生变化; 若所述核心谓词和所述否定词发生变化, 则将所述核心谓词和所述否定词发生变化所 对应的新样本数据作为初步筛 选数据; 获取所述初步筛 选数据与所述原 始合同文件的语义信息; 基于所述语义信息对所述初步筛 选数据进行语义筛 选处理, 得到所述基础样本数据。 6.根据权利要求1至5任一项所述的合同文书的数据增广方法, 其特征在于, 所述基于 所述标注样本数据, 识别所述基础样本数据中的要 素标签序列, 并基于所述要 素标签序列, 对所述基础样本数据进行筛 选和迭代训练, 得到目标 数据, 包括: 将所述标注样本数据转换为向量序列; 将所述向量序列输入到双向长短期记 忆网络中进行编码处 理, 得到输出结果; 通过条件随机场对所述输出结果进行解码, 得到解码结果, 并基于所述解码结果, 识别 所述基础样本数据中的要素 标签序列; 从所述基础样本数据中随机获取数据样本集, 并基于所述要素标签序列, 获取所述数 据样本集的动作反馈; 基于所述动作反馈, 筛选所述数据样本集, 并基于所述数据样本集对所述基础样本数 据进行迭代训练, 得到所述目标 数据。 7.根据权利要求6所述的合同文书的数据增广方法, 其特征在于, 所述通过条件随机场 对所述输出结果进 行解码, 得到解码结果, 并基于所述解码结果, 识别所述基础样本数据中 的要素标签序列, 包括: 通过条件随机场对所述输出结果进行解码, 得到所述解码结果, 并预测所述解码结果 中的要素 标签序列, 得到候选要素 标签序列; 采用最小 贝叶斯风险对所述 候选要素 标签序列进行筛 选, 得到所述要素 标签序列。 8.一种合同文 书的数据增广装置, 其特 征在于, 包括: 合同领域数据获取模块, 用于获取合同领域数据, 并所述合同领域数据分成标注样本 数据和未 标记合同文 书数据, 其中, 所述标注样本数据中包括样本标签; 语言模型微调处理模块, 用于基于所述标注样本数据和所述未标记合同文书数据, 构 建微调数据, 并通过所述微调 数据对预训练语言模型进行微调处理, 得到微调后的预训练 语言模型; 新样本数据生成模块, 用于获取原始合同文件, 并通过所述微调后的预训练语言模型 对所述原 始合同文件进行样本生成处 理, 得到新样本数据; 新样本数据筛选模块, 用于对所述新样本数据进行初步筛选和语义筛选, 得到基础样 本数据; 目标数据生成模块, 用于基于所述标注样本数据, 识别所述基础样本数据中的要素标 签序列, 并基于所述要 素标签序列, 对 所述基础样本数据进 行筛选和迭代训练, 得到目标数 据。 9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机程 序, 所述处理器执行所述计算机程序时实现如权利要求 1至7中任一项 所述的合同文书的数权 利 要 求 书 2/3 页 3 CN 115329740 A 3
专利 合同文书的数据增广方法、装置、计算机设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:39
上传分享
举报
下载
原文档
(720.2 KB)
分享
友情链接
GB-Z 42885-2023 信息安全技术 网络安全信息共享指南.pdf
DB62-T 4277-2020 公务用车信息化管理平台运行管理规范 甘肃省.pdf
红蓝对抗-红队作战手册.pdf
ISO 31000-2018.pdf
GB-T 24405.2-2010 - ISO IEC 20000-2-2005 信息技术 服务管理 第2部分:实践规则.pdf
GB-T 17116.3-2018 管道支吊架 第3部分:中间连接件和建筑结构连接件.pdf
GB-T 33850-2017信息技术服务质量评价指标体系.pdf
GB-T 33207-2016 无损检测 在役金属管内氧化皮堆积的磁性检测方法.pdf
DB44-T 1212-2013 用能单位能源计量管理体系通用要求 广东省.pdf
T-CPUMT 008—2022 工业信息安全漏洞分类分级指南.pdf
T-CSTM 00837—2022 材料基因工程数据 元数据标准化基本原则与方法.pdf
DB4401-T 28-2019 排水管渠维修养护技术规范 广州市.pdf
思度安全-DSMM-021 存储媒体安全管理规范V1.0.pdf
GB-T 20945-2013 信息安全技术信息系统安全审计产品技术要求和测试评价方法.pdf
T-CERACU 205—2022 数字素养与技能认证.pdf
HJ 164-2020 地下水环境监测技术规范.pdf
GB-T 25054-2010 海洋特别保护区选划论证技术导则.pdf
GB-T 14846-2014 铝及铝合金挤压型材尺寸偏差.pdf
GB-T 40218-2021 工业通信网络 网络和系统安全 工业自动化和控制系统信息安全技术.pdf
DB3212-T 1126—2022 救助管理机构管理绩效评估规范 泰州市.pdf
1
/
18
评价文档
赞助3元 点击下载(720.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。