(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211185558.2
(22)申请日 2022.09.27
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 刘琼昕 牛文涛 王佳升 王甜甜
方胜
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 王松
(51)Int.Cl.
G06F 40/205(2020.01)
G06F 40/284(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)G06F 16/35(2019.01)
(54)发明名称
一种融合知识和约束图的远程监督关系抽
取方法
(57)摘要
本发明公开了一种融合知识和约束图的远
程监督关系抽取方法, 属于计算机自然语言处理
中的文本数据关系提取技术领域。 本方法, 通过
使用实体知识上下文进行额外信息补充。 通过 实
体类型、 关系约束 图进行关系间信息传递, 通过
多源融合注意力机制对句子语义信息和实体上
下文信息、 实体关系约束信息进行信息融合, 帮
助进行句子和实体 关系的表示学习, 提升关系抽
取效果。 本方法同时解决了远程监督关系抽取的
数据噪声问题和关系长尾问题, 尤其适合对于大
规模的文本数据下和复杂文本环境下的关系抽
取, 对于实现从非结构化文本中抽取结构化事实
信息十分有效。
权利要求书6页 说明书8页 附图1页
CN 115545005 A
2022.12.30
CN 115545005 A
1.一种融合知识和约束图的远程 监督关系抽取 方法, 其特 征在于, 包括以下步骤:
步骤1: 收集远程监督数据集中的实体在知识库中的邻居实体, 包括一跳、 两跳的邻居
实体; 由远程监督数据集中的实体及其邻居实体组成实体集合, 使用该实体集合构建实体
邻居图, 并结合 实体间关系集合构建约束图; 对远程监督数据集, 将具有相同实体对的句子
组合成句子包;
步骤2: 获取包内句子中每 个单词的词嵌入向量, 以及句子的特 征向量表示;
步骤3: 利用属性编码器, 对实体集合中的每一个实体, 收集其在知识库中的实体属性
信息, 包括实体名称、 实体别称、 实体类型和实体描述; 每个实体通过拼接这些属性信息并
输入到属性编码器, 然后输出矩阵并采取列向量均值 化, 得到对应实体的属性向量;
步骤4: 使用实体邻居图构造邻接矩阵, 使用邻接矩阵和实体属性向量作为输入通过图
卷积神经网络构造的邻居图编码器, 得到目标实体的知识上 下文向量表示;
步骤5: 使用约束图构造邻接矩阵, 使用邻接矩阵和实体类型、 关系的向量表示作为输
入通过图卷积神经网络构造的约束图编码器得到实体 类型和关系的向量表示;
步骤6: 将句特征向量表示、 实体上下文向量表示、 实体类型和关系的向量表示作为输
入, 通过多源融合注意力机制, 计算得到句子包的特 征向量表示;
步骤7: 对句子包的特 征向量表示, 通过关系分类 器, 对句子包的关系标签进行 预测。
2.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法, 其特征在于,
步骤1中, 知识库包含实体对和实体对对应的关系, 以及 对每个实体的属性信息: 实体名称、
实体别名、 实体 类型和实体描述;
远程监督数据集是通过远程监督方法标注的训练语料, 利用所述知识库中的实体对和
对应的关系对自然语 言文本进 行标注, 设知识库中存在于知识库中存在 “<头实体, 尾实体,
关系>”三元组, 任何包含该头实体和 尾实体的句 子都认定为表达出该三元组关系, 由此得
到标注数据。
3.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法, 其特征在于,
步骤2中, 包内句子通过word2v ec工具来得到句中每个单词的词嵌入向量, 通过分段卷积神
经网络作为句 子编码器, 得到句 子的特征向量表示, 其中分段卷积神经网络是一个以句 子
单词的特征向量序列为输入, 通过卷积和基于句中两个实体的位置进 行分段池化生成句子
特征向量表示的神经网络模型。
4.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法, 其特征在于,
在步骤1中, 定义实体邻居图为图K={E,N}, E表 示实体节 点集合, 也就是实体集合; N表 示边
的集合; 如果集合E中的两个实体e1、 e2同时出现在知识库中的一个三元 组内, 则存在边(e1,
e2)∈N;
定义约束图为图G={T,R,C}, T为实体类型节点集合, 使用Flair命名实体识别工具来
识别出数据集中实体的类型;
令R为由所有关系构成的关系节点集合, C为约束边集合, 如果实体e1、 e2的实体类型为
且实体e1、 e2具有关系r, 则存在约束
每个约束
对
应
和
两条边;
在步骤2中, 对于步骤1得到的句子包, 对于包内句子
ns为句子s权 利 要 求 书 1/6 页
2
CN 115545005 A
2的长度, 每一个单词wi∈s的输入由其本身的词嵌入向量和位置特征向量组成, 其中, 词嵌
入向量vi, 令向量维度为dw; 位置特征向量
为词wi与句中目标实体对(eh,et)的两
个相对距离的嵌入向量表示, 向量维度为dp; 其中, 相对距离取实体对在句子中第一次出现
的位置作为基准 位置, 来计算 其他词的相对距离;
通过拼接得到单词wi的输入表示wi,
d=dw+2dp,
表示向量; 输入表示wi如式
1所示:
其中,“;”表示向量 拼接操作; 则句子s的输入表示 为矩阵
使用分段卷积神经网络对句子s的输入表示矩阵X进行编码, 得到一个维度大小固定的
句子特征向量; 其中, 分段卷积神经网络包括卷积层和分段最大池化层; 其中, 卷积层的参
数矩阵W表示为:
w表示卷积滑动窗口的长度, 第m个滑动窗口下矩阵X的子矩
阵qm如式2所示:
qm=Xm‑w+1:m(1≤m≤ls+w‑1) (2)
其中, ls表示句子s的长度, m ‑w+1:m表示滑动窗口下词序列在 原句所有词序列的索引区
间;
则子矩阵qm与卷积核的参数矩阵cm的关系, 如式3所示:
其中,
表示卷积运 算;
卷积过程中, 以步幅为1进行滑动卷积, 对卷积窗口超出句子边界的部分使用零向量填
充, 最终得到表示矩阵X的特 征向量c,
采用dc个卷积核, 卷积核的集合表示为
经过卷积计算, 表示矩阵X
对应dc个特征向量
分段卷积神经网络分段最大池化层, 以句子s中实体对的位置为分割点, 将特征向量切
分 为 3 份 ,然 后 对 每 份 分 别 应 用 最 大 池 化 操 作 ;对 于 任 意 一 个 特 征 向 量
分割后产生3个特 征子向量: {ci,1; ci,2; ci,3}; 对每一个特 征子向量进
行最大池化, 得到一个维度为3的池化特 征向量fi, 如式4所示:
fi=[max(ci,1); max(ci,2); max(ci,3)] (4)
其中, max( ·)表示取最大值操作;
矩阵X对应dc个特征向量
分别经过分段最大池化层后, 再将得到的池
化特征向量拼接, 经过激活函数tanh( ·)后, 得到X的特 征向量表示
如式5所示:
其中,
表示dc个池化特 征向量; 由此 得到的
即为句子s的特 征向量表示;
在步骤3中, 使用BERT作 为属性编码器, 对步骤1的实体集合中的每一个实体, 收集其在权 利 要 求 书 2/6 页
3
CN 115545005 A
3
专利 一种融合知识和约束图的远程监督关系抽取方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:44上传分享