专利 不同标注程度下文档级关系抽取的统一正无标记学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211381966.5 (22)申请日 2022.11.07 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人胡文心　汪晔　杨静　刘新新　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06F 40/205(2020.01) G06N 20/00(2019.01) (54)发明名称不同标注程度下文档级关系抽取的统一正无标记学习方法 (57)摘要本发明公开了一种不同标注程度下文档级关系抽取的统一正无标记学习方法，其特点是将未标注的样本视为混杂着正样本和负样本的结合，使用一种正无标记学习方法，从嘈杂的未标记样本中学习出对应关系的模式，具体包括：正无标记学习、先验转移的正无标记学习和平方排名损失等步骤。本发明与现有技术相比具有方法简便、易行，可以灵活和方便的嵌入到各种骨架模型当中，只需更改对应的损失函数，适合多种多标签分类且不完全标注的任务，大量节省训练文档级关系抽取模型的所需数据标注成本，只需要标注文档中的部分关系即可训练出一个合理的模型，具有广泛的应用前景。权利要求书1页说明书5页附图2页 CN 115545007 A 2022.12.30 CN 115545007 A 1. 一种不同标注程度下文档级关系抽取的统一正无标记学习方法，其特征在于，该方法具体包括以下步骤：步骤一：正无标记学习对多标签文档级关系抽取的每一个关系类别进行先验估计，然后对每一个类别采用二元的正无标记学习方法，将其转化为多标签的正无标记学习；步骤二：先验转移的正无标记学习通过估计的先验和已经标注的数据，得到先验转移后的正无标记学习公式，计算未标记数据的先验分布与总体先验分布之间的偏差；步骤三：平方排名损失采用无类别分数作为自适应阈值，区分无类关系和预定义类关系，使预定义正向标签的排名高于无类标签，而预定义负向标签的排名更低。 2.根据权利要求1所述的不同标注程度下文档级关系抽取的统一正无标记学习方法，其特征在于，所述正无标记学习具体包括：对于每种关系类别估计出大概的先验，即正样本的占比，然后对每种关系类别采用二元的正无标记学习方法，实现多标签文档级关系抽取中的正无标记学习。 3.根据权利要求1所述的不同标注程度下文档级关系抽取的统一正无标记学习方法，其特征在于，所述平方排名损失具体包括：增加一个无关系的类别，即无类别，以平方损失为基础，优化使得正向关系的分数大于无类别分数，负向关系分数小于无类别分数，预测时无类别分数即可充当为自适应阈值，当对应关系分数大于其时为正向关系，否则为负。权　利　要　求　书 1/1 页 2 CN 115545007 A 2不同标注程度下文档级关系抽取的统一正无标记学习方法技术领域 [0001]本发明涉及自然语言处理中文档级关系抽取技术领域，尤其是一种不同标注程度下文档级关系抽取的统一正无标记学习方法。背景技术 [0002]随着大数据和人工智能时代的来临，互联网上各类信息以爆炸般的速度增长，从海量的数据中获取信息成为一个亟待解决的问题。信息抽取作为自然语言理解的一个重要分支，其主要目标是将嵌入在文本中的无结构信息通过自动提取进而转化为结构化数据，与其相关的技术研究逐渐兴起。关系抽取，作为信息抽取的一个重要的子任务，旨在识别给定文本中两个实体之间的关系。关系抽取作为自然语言理解领域的一项常见的基础任务，在各个方面都有着广泛的应用：例如创建新的结构化知识库并增强现有知识库；构建垂直领域的知识图谱；支持上层的高级应用如文本摘要、自动问答、机器翻译、语义网标注等。关系抽取任务主要集中与从一个句子中抽取实体对间的相互关系，而最近的研究中，从跨越多个句子的实体对之间抽取关系的文档级关系抽取任务得到了越来越多的关注。 [0003]现有技术的文档级关系抽取方法主要集中于完全监督场景下的任务，即所有的关系对都被标注。而在实际场景下，由于实体对的数量会随着实体数量的增加而呈二次增长，完全标注所有的关系对十分困难，导致不完全标注成为文档级关系抽取中的一个常见问题，在不完全标注的训练数据上训练的模型倾向于在实际场景中过度拟合，得到较低的召回率从而导致欠佳的结果。然而在现实世界中，由于文档中实体对的数量随着实体数量的增加而呈平方倍增长，完全标注文档中的所有关系是昂贵而困难的。因此，不完全标注下的文档级关系抽取成为了一个紧急需求。发明内容 [0004]本发明的目的是针对现有技术的不足而提出的一种不同程度标注下文档级关系抽取的统一正无标记学习方法，将未标注的样本视为混杂着正样本和负样本的结合，使用一种正无标记学习方法，从嘈杂的未标记样本中学习出对应关系的模式，考虑到原始数据的标注可能会导致先验的偏移，进一步采用了先验偏移下的正无标记学习和平方排序损失函数，更好的区分无类和预定义类，即使预定义正向标签的排名高于无类标签，而预定义负向标签的排名更低，这种损失函数可以很好地适应正无标记学习，方法简便、易行，可以灵活和方便的嵌入到各种骨架模型当中，只需更改对应的损失函数，适合多种多标签分类且不完全标注的任务，大量节省训练文档级关系抽取模型的所需数据标注成本，只需要标注文档中的部分关系即可训练出一个合理的模型，具有广泛的应用前景。 [0005]实现本发明目的的具体技术方案是：一种不同标注程度下文档级关系抽取的统一正无标记学习方法，其特点是该方法具体包括以下步骤： [0006]步骤一：正无标记学习 [0007]首先对多标签文档级关系抽取的每一个关系类别进行先验估计，估计正样本分布说　明　书 1/5 页 3 CN 115545007 A 3

专利 不同标注程度下文档级关系抽取的统一正无标记学习方法

专利不同标注程度下文档级关系抽取的统一正无标记学习方法