iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211150030.1 (22)申请日 2022.09.21 (71)申请人 广州大学 地址 510006 广东省广州市番禺区大 学城 外环西路23 0号 (72)发明人 李树栋 黄倩岚 吴晓波 韩伟红  唐可可  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 李斌 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 面向语句的特征维度增强的实体和关系知 识提取方法及装置 (57)摘要 本发明公开了一种面向语句的特征维度增 强的实体和关系知识提取方法及装置, 方法包 括: 对输入语句进行向量化, 得到具有上下文语 义特征的向量化语句; 将所述向量化语句进行实 体探测与特征化以及关系探测与特征化, 分别得 到实体特征信息与关系特征信息; 将所述向量化 语句进行实体与关系联合预测, 并将实体特征信 息与关系特征信息作为辅助维度特征信息进行 信息加强处理, 得到实体与关系联合预测的特征 信息; 将所述实体与关系的联合预测的特征信息 进行拼接或者链路预测, 最终形成三元组。 本发 明采取了实体与关系联合抽取的方法, 避免可能 存在的重叠三元组和传播误差, 确保了三元组信 息的多样性与可靠性。 权利要求书3页 说明书11页 附图3页 CN 115510239 A 2022.12.23 CN 115510239 A 1.一种面向语句的特征维度增强的实体和关系知识提取方法, 其特征在于, 包括下述 步骤: 对输入语句进行向量 化, 得到具有上 下文语义特 征的向量 化语句; 将所述向量化语句进行实体探测与 特征化以及 关系探测与特征化, 分别得到实体特征 信息与关系特征信息; 所述实体特征信息是指从向量化语句 中抽取的主体信息和客体信 息; 所述关系特 征信息是指向量 化语句中抽取 出的主体和客体之间存在的关联 特征; 将所述向量化语句进行实体与关系联合预测, 并将 实体特征信 息与关系特征信 息作为 辅助维度特 征信息进行信息加强处 理, 得到实体与关系联合预测的特 征信息; 将所述实体与关系的联合预测的特 征信息进行拼接或者链路预测, 最终形成三元组。 2.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征 在于, 所述对输入语句进行向量 化, 具体为: 将输入语句中的每个单词通过Bert模型中的编码器提取其隐匿的特征, 将输入语句转 换为具有上 下文语义特 征的向量 化语句, 所述向量 化语句H的表达式如下: H=Bert[{x1,x2,...,xn,...,xm}*mask] H=[h1,h2,..,hn,...,hm] 其中, x1,x2,...,xn,...,xm是输入语句中每个词映射到Bert模型对应字典的ID, n代表 输入语句序列长度, m是语句向量化并且填充补齐后的语句总长度, mask是输入语句中实际 有效的语句信息, h1,h2,..,hn,...,hm是融入了上 下文信息的词向量。 3.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征 在于, 所述实体指的是主体和客体; 所述实体探测与特 征化, 具体为: 将已向量化的语句H输入进一个全连接层中, 计算出实体的开始位置概率和结束位置 概率, 如果开始位置的概率大于预设的第一阈值, 则将该开始位置确定为所述向量化语句 中实体的开始位置; 同理, 如果结束位置的概率大于预设的第二阈值, 则将该结束位置确定 为所述向量化语句中实体的结束位置; 同时, 全连接层的神经网络会根据训练集的标签信 息进行训练, 并且不断的对的可训练权 重值W和b进行调整; 所述实体的开始位置概 率和结束位置概 率的计算公式如下: pistart_sub(obj)=sigmoid(Wstarthi+bstart) piend_sub(obj)=sigmoid(Wendhi+bend) 其中, pistart_sub(obj)是输入语句中第i个位置标记为实体开始位置概率, piend_sub(obj)是输 入语句中第i个 位置标记为实体结束位置概率; hi是编码器层的输出结果, Wstart和bstart为计 算实体开始位置概率的可训练权重值, Wend和bend为计算实体结束位置概率的可训练权重 值, sigmo id为激活函数; 确定实体开始位置概率和实体结束位置概率后, 抽取出主体信息Tisub和客体信息Tiobj, 公式为: Tisub=(pistart_sub,piend_sub) Tiobj=(pistart_obj,piend_obj) 其中, pistart_sub为第i个位置标记为主体开始位置概率, piend_sub为第i个位置标记为主 体结束位置概率; pistart_obj第i个位置标记为客体开始位置概率, piend_obj为第i个位置标记权 利 要 求 书 1/3 页 2 CN 115510239 A 2为客体结束位置概 率。 4.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征 在于, 所述关系探测与特 征化, 具体为: 将所有预设的关系标签嵌入到一个高维向量中, 然后通过一个线性映射层, 将最终结 果表示为最具关系的初始关系节点嵌入, 所述初始关系节点嵌入的计算公式为: Rm=Wr*E([r1,r2,...,rm])+br 其中, ri为预定义关系中关系指标的独热向量, m为预定义关系的个数, E为关系嵌入矩 阵, Wr和br为关系节点预定义过程的可训练参数, Rm为初始关系节点, 是一个高维的关系 向量; 预测特征向量化输入语句中所包含的初始关系节点信 息, 首先在初始语句中加入已得 到的初始关系节点信息, 将加入了初始关系节点信息的初始语句一起加入到一个全连接层 中进行神经网络计算, 再通过sigmoid函数最终获得关系信息特征; 同时, 高维特征向量在 不断的训练下Wr、 br权值发生改变, 进而确定关系信 息的特征, 所述关系信 息特征计算公式 如下: 其中, 为前一步中得出的高维关系向量, hi为编码器层的输出结果, Wr和br为关系探 测过程的可训练权值, sigmo id为激活函数。 5.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征 在于, 所述对向量化的语句进行实体与关系联合预测, 并将实体特征信息与关系 特征信息 作为实体辅助维度特 征进行信息加强处 理, 具体为: 分别将实体头部信息特征和实体尾部特征加入到语句特征中, 再乘上关系特征信息, 使用两个全连接层网络, 一个网络用于对主体 ‑关系进行预测, 另一个网络用于对客体 ‑关 系进行预测; 通过网络的自我调整与训练后, 得到实体与关系联合预测的特 征信息。 6.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征 在于, 所述得到实体与关系联合预测的特 征信息的计算公式如下: 其中,sigmoid是激活函数,Tistart和Tiend分别为主体特征信息、 客体的特征信息, hi,relation是向量化语句特征, 是预测计算出的关系特征结果, Wstart、 bstart、 Wend、 和bend是 可训练的权 重参数。 7.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征 在于, 所述将预测出的实体与关系的特征信息进 行拼接或者链路预测, 最 终形成三元组, 具 体为: 对实体与关系联合预测的特征信 息进行类别判断, 判断的方法是构建两个与关系库 数 量长度相同的一维矩阵, 通过遍历两方联合预测输出 的结果, 将两方预测出 的关系值对应 的ID对应成数组下标位置, 从而进行关系 数量登记, 最后得到唯一关系匹配和多关系匹配权 利 要 求 书 2/3 页 3 CN 115510239 A 3

PDF文档 专利 面向语句的特征维度增强的实体和关系知识提取方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向语句的特征维度增强的实体和关系知识提取方法及装置 第 1 页 专利 面向语句的特征维度增强的实体和关系知识提取方法及装置 第 2 页 专利 面向语句的特征维度增强的实体和关系知识提取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。