iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211381966.5 (22)申请日 2022.11.07 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 胡文心 汪晔 杨静 刘新新  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/205(2020.01) G06N 20/00(2019.01) (54)发明名称 不同标注程度下文档级关系抽取的统一正 无标记学习方法 (57)摘要 本发明公开了一种不同标注程度下文档级 关系抽取的统一正无标记学习方法, 其特点是将 未标注的样本视为混杂着正样本和负样本的结 合, 使用一种正无标记学习方法, 从嘈杂的未标 记样本中学习出对应关系的模式, 具体包括: 正 无标记学习、 先验转移的正无标记学习和平方排 名损失等步骤。 本发明与现有技术相比具有 方法 简便、 易行, 可以灵活和方便的嵌入到各种骨架 模型当中, 只需更改对应的损失函数, 适合多种 多标签分类且不完全 标注的任务, 大量节省训练 文档级关系抽取模型的所需数据标注成本, 只需 要标注文档中的部分关系即可训练出一个合理 的模型, 具有广泛的应用前 景。 权利要求书1页 说明书5页 附图2页 CN 115545007 A 2022.12.30 CN 115545007 A 1. 一种不同标注程度 下文档级关系抽取的统一正无标记学习方法, 其特征在于, 该方 法具体包括以下步骤: 步骤一: 正无 标记学习 对多标签文档级关系抽取的每一个关系类别进行先验估计, 然后对每一个类别采用二 元的正无 标记学习方法, 将其 转化为多标签的正无 标记学习; 步骤二: 先验转移的正无 标记学习 通过估计的先验和已经标注的数据, 得到先验转移后的正无标记学习公式, 计算未标 记数据的先验分布与总体先验分布之间的偏差; 步骤三: 平方排名损失 采用无类别分数作为自适应阈值, 区分无类关系和预定义类关系, 使预定义正向标签 的排名高于无类标签, 而预定义负向标签的排名更低。 2.根据权利要求1所述的不同标注程度下文档级关系抽取的统一正无标记学习方法, 其特征在于, 所述正无标记学习具体包括: 对于每种关系类别估计出大概的先验, 即正样本 的占比, 然后对每种关系类别采用二元 的正无标记学习 方法, 实现多标签文档级关系抽取 中的正无 标记学习。 3.根据权利要求1所述的不同标注程度下文档级关系抽取的统一正无标记学习方法, 其特征在于, 所述平方排名损失具体包括: 增加一个无关系的类别, 即无类别, 以平方损失 为基础, 优化使得正向关系的分数大于无类别分数, 负向关系分数小于无类别分数, 预测时 无类别分数即可充当为自适应阈值, 当对应关系分数 大于其时为 正向关系, 否则为负。权 利 要 求 书 1/1 页 2 CN 115545007 A 2不同标注 程度下文档级关系抽取的统一正无标记学习方 法 技术领域 [0001]本发明涉及自然语言处理中文档级关系抽取技术领域, 尤其是一种不同标注程度 下文档级关系抽取的统一 正无标记学习方法。 背景技术 [0002]随着大数据和人工智能时代的来临, 互联网上各类信息以爆炸般的速度增长, 从 海量的数据中获取信息成为一个亟待解决 的问题。 信息抽取作为自然语言理解的一个重要 分支, 其主要目标是将嵌入在文本中的无结构信息通过自动提取进而转化为结构化数据, 与其相关的技术研究逐渐兴起。 关系抽取, 作为信息抽取的一个重要的子任务, 旨在识别给 定文本中两个实体之间的关系。 关系抽取作为自然语言理解领域的一项常见 的基础任务, 在各个方面都有着广泛的应用: 例如创建新的结构化知识库并增强现有知识库; 构建垂直 领域的知识图谱; 支持上层的高级应用如 文本摘要、 自动问答、 机器翻译、 语义网标注等。 关 系抽取任务主要集中与从一个句 子中抽取实体对间的相互关系, 而最近的研究中, 从跨越 多个句子的实体对之间抽取关系的文档级关系抽取任务得到 了越来越多的关注。 [0003]现有技术的文档级关系抽取方法主要集中于完全监督场景下的任务, 即所有的关 系对都被标注。 而在实际场景下, 由于实体对的数量会随着实体数量的增加而 呈二次增长, 完全标注所有的关系对十分困难, 导致不完全标注成为文档级关系抽取中的一个常见问 题, 在不完全标注的训练数据上训练的模型倾向于在实际场景中过度拟合, 得到较低的召 回率从而导致欠佳的结果。 然而在现实世界中, 由于文档中实体对的数量 随着实体数量的 增加而呈平方倍增长, 完全标注文档中的所有关系是昂贵而困难的。 因此, 不完全标注下的 文档级关系抽取成为了一个紧急需求。 发明内容 [0004]本发明的目的是针对现有技术的不足而提出的一种不同程度标注下文档级关系 抽取的统一正无标记学习方法, 将未标注的样本视为混杂着正样本和负样本的结合, 使用 一种正无标记学习 方法, 从嘈杂的未标记样本中学习 出对应关系的模式, 考虑到原始数据 的标注可能会导致先验的偏移, 进一步采用了先验偏移下的正无标记学习和平方排序损失 函数, 更好的区分无类和预定义类, 即使 预定义正向标签的排名高于无类标签, 而 预定义负 向标签的排名更低, 这种损失函数可以很好地适应正无标记学习, 方法简便、 易行, 可以灵 活和方便的嵌入到各种骨架模型当中, 只需更改对应的损失函数, 适合多种多标签分类且 不完全标注的任务, 大量节省训练文档级关系抽取模型 的所需数据标注成本, 只需要标注 文档中的部分 关系即可训练出一个合理的模型, 具有广泛的应用前 景。 [0005]实现本发明目的的具体技术方案是: 一种不同标注程度下文档级关系抽取的统一 正无标记学习方法, 其特点是 该方法具体包括以下步骤: [0006]步骤一: 正无 标记学习 [0007]首先对多标签文档级关系抽取的每一个关系类别进行先验估计, 估计正样本分布说 明 书 1/5 页 3 CN 115545007 A 3

.PDF文档 专利 不同标注程度下文档级关系抽取的统一正无标记学习方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 不同标注程度下文档级关系抽取的统一正无标记学习方法 第 1 页 专利 不同标注程度下文档级关系抽取的统一正无标记学习方法 第 2 页 专利 不同标注程度下文档级关系抽取的统一正无标记学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:12:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。