专利 面向语句的特征维度增强的实体和关系知识提取方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211150030.1 (22)申请日 2022.09.21 (71)申请人广州大学地址 510006 广东省广州市番禺区大学城外环西路23 0号 (72)发明人李树栋　黄倩岚　吴晓波　韩伟红　唐可可　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师李斌 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称面向语句的特征维度增强的实体和关系知识提取方法及装置 (57)摘要本发明公开了一种面向语句的特征维度增强的实体和关系知识提取方法及装置，方法包括：对输入语句进行向量化，得到具有上下文语义特征的向量化语句；将所述向量化语句进行实体探测与特征化以及关系探测与特征化，分别得到实体特征信息与关系特征信息；将所述向量化语句进行实体与关系联合预测，并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理，得到实体与关系联合预测的特征信息；将所述实体与关系的联合预测的特征信息进行拼接或者链路预测，最终形成三元组。本发明采取了实体与关系联合抽取的方法，避免可能存在的重叠三元组和传播误差，确保了三元组信息的多样性与可靠性。权利要求书3页说明书11页附图3页 CN 115510239 A 2022.12.23 CN 115510239 A 1.一种面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，包括下述步骤：对输入语句进行向量化，得到具有上下文语义特征的向量化语句；将所述向量化语句进行实体探测与特征化以及关系探测与特征化，分别得到实体特征信息与关系特征信息；所述实体特征信息是指从向量化语句中抽取的主体信息和客体信息；所述关系特征信息是指向量化语句中抽取出的主体和客体之间存在的关联特征；将所述向量化语句进行实体与关系联合预测，并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理，得到实体与关系联合预测的特征信息；将所述实体与关系的联合预测的特征信息进行拼接或者链路预测，最终形成三元组。 2.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，所述对输入语句进行向量化，具体为：将输入语句中的每个单词通过Bert模型中的编码器提取其隐匿的特征，将输入语句转换为具有上下文语义特征的向量化语句，所述向量化语句H的表达式如下： H＝Bert[{x1,x2,...,xn,...,xm}*mask] H＝[h1,h2,..,hn,...,hm] 其中， x1,x2,...,xn,...,xm是输入语句中每个词映射到Bert模型对应字典的ID， n代表输入语句序列长度， m是语句向量化并且填充补齐后的语句总长度， mask是输入语句中实际有效的语句信息， h1,h2,..,hn,...,hm是融入了上下文信息的词向量。 3.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，所述实体指的是主体和客体；所述实体探测与特征化，具体为：将已向量化的语句H输入进一个全连接层中，计算出实体的开始位置概率和结束位置概率，如果开始位置的概率大于预设的第一阈值，则将该开始位置确定为所述向量化语句中实体的开始位置；同理，如果结束位置的概率大于预设的第二阈值，则将该结束位置确定为所述向量化语句中实体的结束位置；同时，全连接层的神经网络会根据训练集的标签信息进行训练，并且不断的对的可训练权重值W和b进行调整；所述实体的开始位置概率和结束位置概率的计算公式如下： pistart_sub(obj)＝sigmoid(Wstarthi+bstart) piend_sub(obj)＝sigmoid(Wendhi+bend) 其中， pistart_sub(obj)是输入语句中第i个位置标记为实体开始位置概率， piend_sub(obj)是输入语句中第i个位置标记为实体结束位置概率； hi是编码器层的输出结果， Wstart和bstart为计算实体开始位置概率的可训练权重值， Wend和bend为计算实体结束位置概率的可训练权重值， sigmo id为激活函数；确定实体开始位置概率和实体结束位置概率后，抽取出主体信息Tisub和客体信息Tiobj，公式为： Tisub＝(pistart_sub,piend_sub) Tiobj＝(pistart_obj,piend_obj) 其中， pistart_sub为第i个位置标记为主体开始位置概率， piend_sub为第i个位置标记为主体结束位置概率； pistart_obj第i个位置标记为客体开始位置概率， piend_obj为第i个位置标记权　利　要　求　书 1/3 页 2 CN 115510239 A 2为客体结束位置概率。 4.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，所述关系探测与特征化，具体为：将所有预设的关系标签嵌入到一个高维向量中，然后通过一个线性映射层，将最终结果表示为最具关系的初始关系节点嵌入，所述初始关系节点嵌入的计算公式为： Rm＝Wr*E([r1,r2,...,rm])+br 其中， ri为预定义关系中关系指标的独热向量， m为预定义关系的个数， E为关系嵌入矩阵， Wr和br为关系节点预定义过程的可训练参数， Rm为初始关系节点，是一个高维的关系向量；预测特征向量化输入语句中所包含的初始关系节点信息，首先在初始语句中加入已得到的初始关系节点信息，将加入了初始关系节点信息的初始语句一起加入到一个全连接层中进行神经网络计算，再通过sigmoid函数最终获得关系信息特征；同时，高维特征向量在不断的训练下Wr、 br权值发生改变，进而确定关系信息的特征，所述关系信息特征计算公式如下：其中，为前一步中得出的高维关系向量， hi为编码器层的输出结果， Wr和br为关系探测过程的可训练权值， sigmo id为激活函数。 5.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，所述对向量化的语句进行实体与关系联合预测，并将实体特征信息与关系特征信息作为实体辅助维度特征进行信息加强处理，具体为：分别将实体头部信息特征和实体尾部特征加入到语句特征中，再乘上关系特征信息，使用两个全连接层网络，一个网络用于对主体 ‑关系进行预测，另一个网络用于对客体 ‑关系进行预测；通过网络的自我调整与训练后，得到实体与关系联合预测的特征信息。 6.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，所述得到实体与关系联合预测的特征信息的计算公式如下：其中,sigmoid是激活函数,Tistart和Tiend分别为主体特征信息、客体的特征信息， hi,relation是向量化语句特征，是预测计算出的关系特征结果， Wstart、 bstart、 Wend、和bend是可训练的权重参数。 7.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法，其特征在于，所述将预测出的实体与关系的特征信息进行拼接或者链路预测，最终形成三元组，具体为：对实体与关系联合预测的特征信息进行类别判断，判断的方法是构建两个与关系库数量长度相同的一维矩阵，通过遍历两方联合预测输出的结果，将两方预测出的关系值对应的ID对应成数组下标位置，从而进行关系数量登记，最后得到唯一关系匹配和多关系匹配权　利　要　求　书 2/3 页 3 CN 115510239 A 3

专利 面向语句的特征维度增强的实体和关系知识提取方法及装置

专利面向语句的特征维度增强的实体和关系知识提取方法及装置