iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211185558.2 (22)申请日 2022.09.27 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 刘琼昕 牛文涛 王佳升 王甜甜  方胜  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 王松 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06F 16/35(2019.01) (54)发明名称 一种融合知识和约束图的远程监督关系抽 取方法 (57)摘要 本发明公开了一种融合知识和约束图的远 程监督关系抽取方法, 属于计算机自然语言处理 中的文本数据关系提取技术领域。 本方法, 通过 使用实体知识上下文进行额外信息补充。 通过 实 体类型、 关系约束 图进行关系间信息传递, 通过 多源融合注意力机制对句子语义信息和实体上 下文信息、 实体关系约束信息进行信息融合, 帮 助进行句子和实体 关系的表示学习, 提升关系抽 取效果。 本方法同时解决了远程监督关系抽取的 数据噪声问题和关系长尾问题, 尤其适合对于大 规模的文本数据下和复杂文本环境下的关系抽 取, 对于实现从非结构化文本中抽取结构化事实 信息十分有效。 权利要求书6页 说明书8页 附图1页 CN 115545005 A 2022.12.30 CN 115545005 A 1.一种融合知识和约束图的远程 监督关系抽取 方法, 其特 征在于, 包括以下步骤: 步骤1: 收集远程监督数据集中的实体在知识库中的邻居实体, 包括一跳、 两跳的邻居 实体; 由远程监督数据集中的实体及其邻居实体组成实体集合, 使用该实体集合构建实体 邻居图, 并结合 实体间关系集合构建约束图; 对远程监督数据集, 将具有相同实体对的句子 组合成句子包; 步骤2: 获取包内句子中每 个单词的词嵌入向量, 以及句子的特 征向量表示; 步骤3: 利用属性编码器, 对实体集合中的每一个实体, 收集其在知识库中的实体属性 信息, 包括实体名称、 实体别称、 实体类型和实体描述; 每个实体通过拼接这些属性信息并 输入到属性编码器, 然后输出矩阵并采取列向量均值 化, 得到对应实体的属性向量; 步骤4: 使用实体邻居图构造邻接矩阵, 使用邻接矩阵和实体属性向量作为输入通过图 卷积神经网络构造的邻居图编码器, 得到目标实体的知识上 下文向量表示; 步骤5: 使用约束图构造邻接矩阵, 使用邻接矩阵和实体类型、 关系的向量表示作为输 入通过图卷积神经网络构造的约束图编码器得到实体 类型和关系的向量表示; 步骤6: 将句特征向量表示、 实体上下文向量表示、 实体类型和关系的向量表示作为输 入, 通过多源融合注意力机制, 计算得到句子包的特 征向量表示; 步骤7: 对句子包的特 征向量表示, 通过关系分类 器, 对句子包的关系标签进行 预测。 2.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法, 其特征在于, 步骤1中, 知识库包含实体对和实体对对应的关系, 以及 对每个实体的属性信息: 实体名称、 实体别名、 实体 类型和实体描述; 远程监督数据集是通过远程监督方法标注的训练语料, 利用所述知识库中的实体对和 对应的关系对自然语 言文本进 行标注, 设知识库中存在于知识库中存在 “<头实体, 尾实体, 关系>”三元组, 任何包含该头实体和 尾实体的句 子都认定为表达出该三元组关系, 由此得 到标注数据。 3.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法, 其特征在于, 步骤2中, 包内句子通过word2v ec工具来得到句中每个单词的词嵌入向量, 通过分段卷积神 经网络作为句 子编码器, 得到句 子的特征向量表示, 其中分段卷积神经网络是一个以句 子 单词的特征向量序列为输入, 通过卷积和基于句中两个实体的位置进 行分段池化生成句子 特征向量表示的神经网络模型。 4.如权利要求1所述的一种融合知识和约束图的远程监督关系抽取方法, 其特征在于, 在步骤1中, 定义实体邻居图为图K={E,N}, E表 示实体节 点集合, 也就是实体集合; N表 示边 的集合; 如果集合E中的两个实体e1、 e2同时出现在知识库中的一个三元 组内, 则存在边(e1, e2)∈N; 定义约束图为图G={T,R,C}, T为实体类型节点集合, 使用Flair命名实体识别工具来 识别出数据集中实体的类型; 令R为由所有关系构成的关系节点集合, C为约束边集合, 如果实体e1、 e2的实体类型为 且实体e1、 e2具有关系r, 则存在约束 每个约束 对 应 和 两条边; 在步骤2中, 对于步骤1得到的句子包, 对于包内句子 ns为句子s权 利 要 求 书 1/6 页 2 CN 115545005 A 2的长度, 每一个单词wi∈s的输入由其本身的词嵌入向量和位置特征向量组成, 其中, 词嵌 入向量vi, 令向量维度为dw; 位置特征向量 为词wi与句中目标实体对(eh,et)的两 个相对距离的嵌入向量表示, 向量维度为dp; 其中, 相对距离取实体对在句子中第一次出现 的位置作为基准 位置, 来计算 其他词的相对距离; 通过拼接得到单词wi的输入表示wi, d=dw+2dp, 表示向量; 输入表示wi如式 1所示: 其中,“;”表示向量 拼接操作; 则句子s的输入表示 为矩阵 使用分段卷积神经网络对句子s的输入表示矩阵X进行编码, 得到一个维度大小固定的 句子特征向量; 其中, 分段卷积神经网络包括卷积层和分段最大池化层; 其中, 卷积层的参 数矩阵W表示为: w表示卷积滑动窗口的长度, 第m个滑动窗口下矩阵X的子矩 阵qm如式2所示: qm=Xm‑w+1:m(1≤m≤ls+w‑1)           (2) 其中, ls表示句子s的长度, m ‑w+1:m表示滑动窗口下词序列在 原句所有词序列的索引区 间; 则子矩阵qm与卷积核的参数矩阵cm的关系, 如式3所示: 其中, 表示卷积运 算; 卷积过程中, 以步幅为1进行滑动卷积, 对卷积窗口超出句子边界的部分使用零向量填 充, 最终得到表示矩阵X的特 征向量c, 采用dc个卷积核, 卷积核的集合表示为 经过卷积计算, 表示矩阵X 对应dc个特征向量 分段卷积神经网络分段最大池化层, 以句子s中实体对的位置为分割点, 将特征向量切 分 为 3 份 ,然 后 对 每 份 分 别 应 用 最 大 池 化 操 作 ;对 于 任 意 一 个 特 征 向 量 分割后产生3个特 征子向量: {ci,1; ci,2; ci,3}; 对每一个特 征子向量进 行最大池化, 得到一个维度为3的池化特 征向量fi, 如式4所示: fi=[max(ci,1); max(ci,2); max(ci,3)]            (4) 其中, max( ·)表示取最大值操作; 矩阵X对应dc个特征向量 分别经过分段最大池化层后, 再将得到的池 化特征向量拼接, 经过激活函数tanh( ·)后, 得到X的特 征向量表示 如式5所示: 其中, 表示dc个池化特 征向量; 由此 得到的 即为句子s的特 征向量表示; 在步骤3中, 使用BERT作 为属性编码器, 对步骤1的实体集合中的每一个实体, 收集其在权 利 要 求 书 2/6 页 3 CN 115545005 A 3

PDF文档 专利 一种融合知识和约束图的远程监督关系抽取方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合知识和约束图的远程监督关系抽取方法 第 1 页 专利 一种融合知识和约束图的远程监督关系抽取方法 第 2 页 专利 一种融合知识和约束图的远程监督关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。