iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151343.9 (22)申请日 2022.09.21 (71)申请人 北京澜舟 科技有限公司 地址 100000 北京市海淀区海淀大街3号1 幢10层10 01 (72)发明人 马永亮 苏韫月 石戈 周明  (74)专利代理 机构 深圳市智享知识产权代理有 限公司 4 4361 专利代理师 王琴 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种生成式事件论元抽取方法、 系统及存储 介质 (57)摘要 本发明涉及事件抽取技术领域, 特别涉及一 种生成式事件论元抽取方法、 系统及存储介质, 本发明的生成式事件论元抽取方法中的触发词 检测模型可以将候选触发词的位置信息、 上下文 信息以及事件类型提供给事件论元抽取模型, 因 此事件论元抽取模型可以融入显式的触发词位 置提示信息和隐式的触发词上下文提示信息, 这 些信息都增强了事件论元抽取模型在进行论元 抽取时更加关注事件内部的关联关系, 即触发词 和论元之间的关联关系, 最终提升了事件论元的 抽取准确率。 本发明还提供了一种事件论元抽取 系统与存储介质, 与本发明的事件论元抽取方法 有益效果相同。 权利要求书1页 说明书9页 附图4页 CN 115238045 A 2022.10.25 CN 115238045 A 1.一种生成式事 件论元抽取 方法, 其特 征在于: 包括以下步骤: 将原始文本输入触发词检测模型以获取候选触发词以及候选触发词的相关信 息; 所述 候选触发词的相关信息包括候选触发词的位置信息、 候选触发词的上下文信息以及候选触 发词的事 件类型中的一种或多种; 基于所述 候选触发词和所述相关信息构造预设事 件输入信息; 将所述预设事件输入信 息输入事件论元抽取模型以获取自然语言文本, 所述自然语言 文本包括事 件触发词和事 件元素; 对所述自然语言文本进行解析以将事件触发词、 事件元素分离得到包括事件论元的结 构化事件。 2.如权利要求1所述的生成式事件论元抽取方法, 其特征在于: 基于所述候选触发词和 所述相关信息构造预设事 件输入信息包括以下步骤: 构造自然语言组织的事 件类型提 示; 构造特定 于事件类型的事 件填充模板; 使用标识符标记出候选触发词在文本中的位置; 将事件类型提示、 事件填充模板以及候选触发词在文本中的位置拼接成为预设事件输 入信息。 3.如权利要求1所述的生成式事件论元抽取方法, 其特征在于: 基于所述候选触发词和 所述相关信息构造预设事 件输入信息还 包括以下步骤: 将候选触发词的上 下文信息作为预设事 件输入信息 。 4.如权利要求2所述的生成式事件论元抽取方法, 其特征在于: 采用模板匹配的方式对 所述自然语言文本进行解析。 5.如权利要求1所述的生成式事件论元抽取方法, 其特征在于: 所述触发词检测模型为 基于BERT预训练语言模型的词级分类模型。 6.如权利要求1所述的生成式事件论元抽取方法, 其特征在于: 所述事件论元抽取模型 为BART模型。 7.如权利要求1所述的生成式事件论元抽取方法, 其特征在于: 所述触发词检测模型与 所述事件论元抽取模型均为训练后的模型, 所述触发词检测模型与所述事件论元抽取模型 训练时采用联合训练的方式同时训练。 8.如权利要求1所述的生成式事件论元抽取方法, 其特征在于: 事件论元抽取模型采用 贪婪搜索的方式生成包括事 件触发词、 事 件元素的自然语言文本 。 9.一种事件论元抽取系统, 其特征在于: 包括触发词检测模块、 事件论元抽取模块与构 造模块, 所述构造模块分别与所述触发词检测模块以及所述事 件论元抽取模块信号连接; 所述触发词检测模块用于获取原 始文本中的候选触发词以及候选触发词的相关信息; 所述构造模块用于根据所述 候选触发词和所述相关信息构造预设事 件输入信息; 所述事件论元抽取模块基于所述预设事 件输入信息获取包括事 件论元的结构化事 件。 10.一种存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被处理器执 行时实现权利要求1 ‑8任一项所述的生成式事 件论元抽取 方法。权 利 要 求 书 1/1 页 2 CN 115238045 A 2一种生成式事件论元抽取方 法、 系统及存 储介质 技术领域 [0001]本发明涉及事件抽 取技术领域, 特别涉及一种生成式事件论元抽 取方法、 系统及 存储介质。 背景技术 [0002]事件抽取是指从自然语言文本中抽取指定类型的事件以及相关实体信息, 并形成 结构化数据输出的文本处理技术, 包括事件发生的时间、 地点、 参与角色以及与之相关的动 作或者状态的改变。 一个事件蕴含事件触发词、 事件参与元素等多个要 素。 现有的事件抽取 方法主要分为几类: 基于 分类的事件抽取方法、 基于问答的事件抽取方法、 基于序列标注的 事件抽取方法和基于生成式的事件抽取方法。 前三种方法一般被统一称为抽取式的事件抽 取方法。 虽然这三类方法通常具有较高的准确 率, 但它们都需要大量复杂的人工标注数据 用于训练模型, 并且最终训练出来的模型也不容易扩展到提取新的事件类型抽取上。 与之 相反, 生成式事 件论元抽取模型正 好能弥补这些不足。 [0003]在实际应用场景中, 文本中是不会明确标注出触发词的, 现有的生成式事件论元 抽取模型往往关注于事件论元 的抽取, 而将触发词作为已知信息给到模型, 这是不符合真 实场景的; 另外, 即使有的模型也有触发词检测模块, 或者其他辅助的过滤无关事件模块, 但这些模块和生成模块都是独立训练、 流水线结合的, 误差传播、 训练次优等问题明显, 从 而影响事 件论元抽取的准确率。 发明内容 [0004]为提高事件论元抽 取的准确率, 本发明提供了一种生成式事件论元抽 取方法、 系 统及存储介质。 [0005]本发明解决技术问题的方案是提供一种生成式事件论元抽取方法, 包括以下步 骤: 将原始文本输入触发词检测模型以获取候选触发词以及 候选触发词的相关信息; 所述候选触发词的相关信息包括候选触发词的位置信息、 候选触发词的上下文信息以及候 选触发词的事 件类型中的一种或多种; 基于所述 候选触发词和所述相关信息构造预设事 件输入信息; 将所述预设事件输入信息输入事件论元抽取模型以获取自然语言文本, 所述自然 语言文本包括事 件触发词和事 件元素; 对所述自然语言文本进行解析以将事件触发词、 事件元素分离得到包括事件论元 的结构化事 件。 [0006]优选地, 基于所述候选触发词和所述相关信息构造预设事件输入信息包括以下步 骤: 构造自然语言组织的事 件类型提 示; 构造特定 于事件类型的事 件填充模板;说 明 书 1/9 页 3 CN 115238045 A 3

PDF文档 专利 一种生成式事件论元抽取方法、系统及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种生成式事件论元抽取方法、系统及存储介质 第 1 页 专利 一种生成式事件论元抽取方法、系统及存储介质 第 2 页 专利 一种生成式事件论元抽取方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。