专利 一种融合知识和约束图的远程监督关系抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211185558.2 (22)申请日 2022.09.27 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人刘琼昕　牛文涛　王佳升　王甜甜　方胜　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 专利代理师王松 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06F 16/35(2019.01) (54)发明名称一种融合知识和约束图的远程监督关系抽取方法 (57)摘要本发明公开了一种融合知识和约束图的远程监督关系抽取方法，属于计算机自然语言处理中的文本数据关系提取技术领域。本方法，通过使用实体知识上下文进行额外信息补充。通过实体类型、关系约束图进行关系间信息传递，通过多源融合注意力机制对句子语义信息和实体上下文信息、实体关系约束信息进行信息融合，帮助进行句子和实体关系的表示学习，提升关系抽取效果。本方法同时解决了远程监督关系抽取的数据噪声问题和关系长尾问题，尤其适合对于大规模的文本数据下和复杂文本环境下的关系抽取，对于实现从非结构化文本中抽取结构化事实信息十分有效。权利要求书6页说明书8页附图1页 CN 115545005 A 2022.12.30 CN 115545005 A 1.一种融合知识和约束图的远程监督关系抽取方法，其特征在于，包括以下步骤：步骤1：收集远程监督数据集中的实体在知识库中的邻居实体，包括一跳、两跳的邻居实体；由远程监督数据集中的实体及其邻居实体组成实体集合，使用该实体集合构建实体邻居图，并结合实体间关系集合构建约束图；对远程监督数据集，将具有相同实体对的句子组合成句子包；步骤2：获取包内句子中每个单词的词嵌入向量，以及句子的特征向量表示；步骤3：利用属性编码器，对实体集合中的每一个实体，收集其在知识库中的实体属性信息，包括实体名称、实体别称、实体类型和实体描述；每个实体通过拼接这些属性信息并输入到属性编码器，然后输出矩阵并采取列向量均值化，得到对应实体的属性向量；步骤4：使用实体邻居图构造邻接矩阵，使用邻接矩阵和实体属性向量作为输入通过图卷积神经网络构造的邻居图编码器，得到目标实体的知识上下文向量表示；步骤5：使用约束图构造邻接矩阵，使用邻接矩阵和实体类型、关系的向量表示作为输入通过图卷积神经网络构造的约束图编码器得到实体类型和关系的向量表示；步骤6：将句特征向量表示、实体上下文向量表示、实体类型和关系的向量表示作为输入，通过多源融合注意力机制，计算得到句子包的特征向量表示；步骤7：对句子包的特征向量表示，通过关系分类器，对句子包的关系标签进行预测。 2.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法，其特征在于，步骤1中，知识库包含实体对和实体对对应的关系，以及对每个实体的属性信息：实体名称、实体别名、实体类型和实体描述；远程监督数据集是通过远程监督方法标注的训练语料，利用所述知识库中的实体对和对应的关系对自然语言文本进行标注，设知识库中存在于知识库中存在 “<头实体，尾实体，关系>”三元组，任何包含该头实体和尾实体的句子都认定为表达出该三元组关系，由此得到标注数据。 3.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法，其特征在于，步骤2中，包内句子通过word2v ec工具来得到句中每个单词的词嵌入向量，通过分段卷积神经网络作为句子编码器，得到句子的特征向量表示，其中分段卷积神经网络是一个以句子单词的特征向量序列为输入，通过卷积和基于句中两个实体的位置进行分段池化生成句子特征向量表示的神经网络模型。 4.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法，其特征在于，在步骤1中，定义实体邻居图为图K＝{E,N}， E表示实体节点集合，也就是实体集合； N表示边的集合；如果集合E中的两个实体e1、 e2同时出现在知识库中的一个三元组内，则存在边(e1, e2)∈N；定义约束图为图G＝{T,R,C}， T为实体类型节点集合，使用Flair命名实体识别工具来识别出数据集中实体的类型；令R为由所有关系构成的关系节点集合， C为约束边集合，如果实体e1、 e2的实体类型为且实体e1、 e2具有关系r，则存在约束每个约束对应和两条边；在步骤2中，对于步骤1得到的句子包，对于包内句子 ns为句子s权　利　要　求　书 1/6 页 2 CN 115545005 A 2的长度，每一个单词wi∈s的输入由其本身的词嵌入向量和位置特征向量组成，其中，词嵌入向量vi，令向量维度为dw；位置特征向量为词wi与句中目标实体对(eh,et)的两个相对距离的嵌入向量表示，向量维度为dp；其中，相对距离取实体对在句子中第一次出现的位置作为基准位置，来计算其他词的相对距离；通过拼接得到单词wi的输入表示wi， d＝dw+2dp，表示向量；输入表示wi如式 1所示：其中，“；”表示向量拼接操作；则句子s的输入表示为矩阵使用分段卷积神经网络对句子s的输入表示矩阵X进行编码，得到一个维度大小固定的句子特征向量；其中，分段卷积神经网络包括卷积层和分段最大池化层；其中，卷积层的参数矩阵W表示为： w表示卷积滑动窗口的长度，第m个滑动窗口下矩阵X的子矩阵qm如式2所示： qm＝Xm‑w+1:m(1≤m≤ls+w‑1) (2) 其中， ls表示句子s的长度， m ‑w+1:m表示滑动窗口下词序列在原句所有词序列的索引区间；则子矩阵qm与卷积核的参数矩阵cm的关系，如式3所示：其中，表示卷积运算；卷积过程中，以步幅为1进行滑动卷积，对卷积窗口超出句子边界的部分使用零向量填充，最终得到表示矩阵X的特征向量c，采用dc个卷积核，卷积核的集合表示为经过卷积计算，表示矩阵X 对应dc个特征向量分段卷积神经网络分段最大池化层，以句子s中实体对的位置为分割点，将特征向量切分为 3 份，然后对每份分别应用最大池化操作；对于任意一个特征向量分割后产生3个特征子向量： {ci,1； ci,2； ci,3}；对每一个特征子向量进行最大池化，得到一个维度为3的池化特征向量fi，如式4所示： fi＝[max(ci,1)； max(ci,2)； max(ci,3)] (4) 其中， max( ·)表示取最大值操作；矩阵X对应dc个特征向量分别经过分段最大池化层后，再将得到的池化特征向量拼接，经过激活函数tanh( ·)后，得到X的特征向量表示如式5所示：其中，表示dc个池化特征向量；由此得到的即为句子s的特征向量表示；在步骤3中，使用BERT作为属性编码器，对步骤1的实体集合中的每一个实体，收集其在权　利　要　求　书 2/6 页 3 CN 115545005 A 3

专利 一种融合知识和约束图的远程监督关系抽取方法

专利一种融合知识和约束图的远程监督关系抽取方法