(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211150030.1
(22)申请日 2022.09.21
(71)申请人 广州大学
地址 510006 广东省广州市番禺区大 学城
外环西路23 0号
(72)发明人 李树栋 黄倩岚 吴晓波 韩伟红
唐可可
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 李斌
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
面向语句的特征维度增强的实体和关系知
识提取方法及装置
(57)摘要
本发明公开了一种面向语句的特征维度增
强的实体和关系知识提取方法及装置, 方法包
括: 对输入语句进行向量化, 得到具有上下文语
义特征的向量化语句; 将所述向量化语句进行实
体探测与特征化以及关系探测与特征化, 分别得
到实体特征信息与关系特征信息; 将所述向量化
语句进行实体与关系联合预测, 并将实体特征信
息与关系特征信息作为辅助维度特征信息进行
信息加强处理, 得到实体与关系联合预测的特征
信息; 将所述实体与关系的联合预测的特征信息
进行拼接或者链路预测, 最终形成三元组。 本发
明采取了实体与关系联合抽取的方法, 避免可能
存在的重叠三元组和传播误差, 确保了三元组信
息的多样性与可靠性。
权利要求书3页 说明书11页 附图3页
CN 115510239 A
2022.12.23
CN 115510239 A
1.一种面向语句的特征维度增强的实体和关系知识提取方法, 其特征在于, 包括下述
步骤:
对输入语句进行向量 化, 得到具有上 下文语义特 征的向量 化语句;
将所述向量化语句进行实体探测与 特征化以及 关系探测与特征化, 分别得到实体特征
信息与关系特征信息; 所述实体特征信息是指从向量化语句 中抽取的主体信息和客体信
息; 所述关系特 征信息是指向量 化语句中抽取 出的主体和客体之间存在的关联 特征;
将所述向量化语句进行实体与关系联合预测, 并将 实体特征信 息与关系特征信 息作为
辅助维度特 征信息进行信息加强处 理, 得到实体与关系联合预测的特 征信息;
将所述实体与关系的联合预测的特 征信息进行拼接或者链路预测, 最终形成三元组。
2.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征
在于, 所述对输入语句进行向量 化, 具体为:
将输入语句中的每个单词通过Bert模型中的编码器提取其隐匿的特征, 将输入语句转
换为具有上 下文语义特 征的向量 化语句, 所述向量 化语句H的表达式如下:
H=Bert[{x1,x2,...,xn,...,xm}*mask]
H=[h1,h2,..,hn,...,hm]
其中, x1,x2,...,xn,...,xm是输入语句中每个词映射到Bert模型对应字典的ID, n代表
输入语句序列长度, m是语句向量化并且填充补齐后的语句总长度, mask是输入语句中实际
有效的语句信息, h1,h2,..,hn,...,hm是融入了上 下文信息的词向量。
3.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征
在于, 所述实体指的是主体和客体;
所述实体探测与特 征化, 具体为:
将已向量化的语句H输入进一个全连接层中, 计算出实体的开始位置概率和结束位置
概率, 如果开始位置的概率大于预设的第一阈值, 则将该开始位置确定为所述向量化语句
中实体的开始位置; 同理, 如果结束位置的概率大于预设的第二阈值, 则将该结束位置确定
为所述向量化语句中实体的结束位置; 同时, 全连接层的神经网络会根据训练集的标签信
息进行训练, 并且不断的对的可训练权 重值W和b进行调整;
所述实体的开始位置概 率和结束位置概 率的计算公式如下:
pistart_sub(obj)=sigmoid(Wstarthi+bstart)
piend_sub(obj)=sigmoid(Wendhi+bend)
其中, pistart_sub(obj)是输入语句中第i个位置标记为实体开始位置概率, piend_sub(obj)是输
入语句中第i个 位置标记为实体结束位置概率; hi是编码器层的输出结果, Wstart和bstart为计
算实体开始位置概率的可训练权重值, Wend和bend为计算实体结束位置概率的可训练权重
值, sigmo id为激活函数;
确定实体开始位置概率和实体结束位置概率后, 抽取出主体信息Tisub和客体信息Tiobj,
公式为:
Tisub=(pistart_sub,piend_sub)
Tiobj=(pistart_obj,piend_obj)
其中, pistart_sub为第i个位置标记为主体开始位置概率, piend_sub为第i个位置标记为主
体结束位置概率; pistart_obj第i个位置标记为客体开始位置概率, piend_obj为第i个位置标记权 利 要 求 书 1/3 页
2
CN 115510239 A
2为客体结束位置概 率。
4.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征
在于, 所述关系探测与特 征化, 具体为:
将所有预设的关系标签嵌入到一个高维向量中, 然后通过一个线性映射层, 将最终结
果表示为最具关系的初始关系节点嵌入, 所述初始关系节点嵌入的计算公式为:
Rm=Wr*E([r1,r2,...,rm])+br
其中, ri为预定义关系中关系指标的独热向量, m为预定义关系的个数, E为关系嵌入矩
阵, Wr和br为关系节点预定义过程的可训练参数, Rm为初始关系节点,
是一个高维的关系
向量;
预测特征向量化输入语句中所包含的初始关系节点信 息, 首先在初始语句中加入已得
到的初始关系节点信息, 将加入了初始关系节点信息的初始语句一起加入到一个全连接层
中进行神经网络计算, 再通过sigmoid函数最终获得关系信息特征; 同时, 高维特征向量在
不断的训练下Wr、 br权值发生改变, 进而确定关系信 息的特征, 所述关系信 息特征计算公式
如下:
其中,
为前一步中得出的高维关系向量, hi为编码器层的输出结果, Wr和br为关系探
测过程的可训练权值, sigmo id为激活函数。
5.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征
在于, 所述对向量化的语句进行实体与关系联合预测, 并将实体特征信息与关系 特征信息
作为实体辅助维度特 征进行信息加强处 理, 具体为:
分别将实体头部信息特征和实体尾部特征加入到语句特征中, 再乘上关系特征信息,
使用两个全连接层网络, 一个网络用于对主体 ‑关系进行预测, 另一个网络用于对客体 ‑关
系进行预测; 通过网络的自我调整与训练后, 得到实体与关系联合预测的特 征信息。
6.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征
在于, 所述得到实体与关系联合预测的特 征信息的计算公式如下:
其中,sigmoid是激活函数,Tistart和Tiend分别为主体特征信息、 客体的特征信息,
hi,relation是向量化语句特征,
是预测计算出的关系特征结果, Wstart、 bstart、 Wend、 和bend是
可训练的权 重参数。
7.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法, 其特征
在于, 所述将预测出的实体与关系的特征信息进 行拼接或者链路预测, 最 终形成三元组, 具
体为:
对实体与关系联合预测的特征信 息进行类别判断, 判断的方法是构建两个与关系库 数
量长度相同的一维矩阵, 通过遍历两方联合预测输出 的结果, 将两方预测出 的关系值对应
的ID对应成数组下标位置, 从而进行关系 数量登记, 最后得到唯一关系匹配和多关系匹配权 利 要 求 书 2/3 页
3
CN 115510239 A
3
专利 面向语句的特征维度增强的实体和关系知识提取方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:47上传分享