(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211171497.4
(22)申请日 2022.09.26
(71)申请人 南京航空航天大 学
地址 211106 江苏省南京市江宁区秣陵街
道将军大道 29号
(72)发明人 王立松 孙明杰
(74)专利代理 机构 南京钟山专利代理有限公司
32252
专利代理师 张力
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/242(2020.01)
G06N 20/00(2019.01)
(54)发明名称
多关系词对标签空间的实体关系联合抽取
方法
(57)摘要
本发明公开了多关系词对标签空间的实体
关系联合抽取方法, 输入层接收英文训练样本或
预测阶段的样本; T okenize层将输入层接收到的
样本句子根据词表进行Token化, 经过Bert编码
后, 得到Token语义表示向量以及得到记录单词
在token序列起始位置的字典; Maxpooling层, 基
于所述字典, 将Token语义表示向量进行最大池
化, 得到句子中每个单词的语义向量表示; 联合
抽取层枚举句子中所有的词对, 并为其在所有预
定义关系空间下进行标签打分, 最后根据标签特
征进行联合抽取。 本发明使 得在复杂关系下进行
实体关系联合抽取的效果和效率得到了进一步
的提升, 为自然语 言处理的底层提供了更好的保
障。
权利要求书2页 说明书8页 附图2页
CN 115510855 A
2022.12.23
CN 115510855 A
1.多关系词对标签空间的实体关系联合抽取方法, 基于实体关系联合抽取模型实现,
所述实体关系联合抽取模型包括输入层、 Tokenize层、 Max pooling层和联合抽取层, 其特
征在于, 所述方法包括:
步骤1、 输入层接收英文训练样本或预测阶段的样本;
步骤2、 Tokenize层将输入层接收到的样本句子根据词表进行Token化, 经过Bert编码
后, 得到To ken语义表示向量以及得到记录单词在to ken序列起始位置的字典;
步骤3、 Max pooling层, 基于所述字典, 将Token语义表示向量进行最大池化, 得到句子
中每个单词的语义向量表示;
步骤4、 基于步骤3的处理, 联合抽取层 枚举句子中所有的词对, 并为其在所有预定义关
系空间下进行 标签打分, 最后根据标签特 征进行联合抽取。
2.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
步骤2所述Tokenize层使用到的是PyTorch Keras Bert包中的Tokenizer将输入层接收到
的样本句子根据词表进行To ken化。
3.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
所述步骤2对于句子W={w1,w2,...,wX}, wi表示句子中的第i个单词, 经过Token化和Bert编
码后, 得到Token语义表 示向量
其中N表示token个数, ti表示第i
个token, Wenc表示句子中所有token编码后的语义向量, d是语义向量维度大小, 以及得到记
录单词在to ken序列起始位置的字典I ndex。
4.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
步骤3利用Max pooling操作把to ken语义表示向量融合 为词向量表示, 公式为:
Index=[(1,n1)1,(n1+1,n2)2,...,(ni,n)X],
其中, Index指的是在To kenize层得到的记录单词在to ken序列起始位置的字典;
[:]是序列的切片操作;
Embi表示得到的第i个单词的向量表示。
5.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
步骤4采用的标签策略具体如下:
对于一个输入的句子样本W={w1,w2,...,wX}和一组预定义的关系集合R={ r1,r2,...,
rQ}, 生成一个Q维的标签矩阵TMQ×X×X, 其中X表示句子的长度, ri表示关系集合 中的第i种关
系, Q为关系的总数;
矩阵TM的每一个维度都与R中一种关系相对应, 每一个方格中会有一个模型生成的具
有特定含义的标签;
矩阵中的行和列分别表示头实体和尾实体;
所述解码就是根据特定的标签含义, 在矩阵中一次性抽取 出所有预测的三元组。
6.根据权利要求5所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
所述标签策略根据实体长度的特 征和头实体 尾实体对齐的方式设置八种标签:
SS,SMH,SMT,MSH,MST,M MH,MMT,A;
其中, SS表示头实体和尾实体都是由单个单词组成;权 利 要 求 书 1/2 页
2
CN 115510855 A
2SMH表示头实体是由单个单词组成, 尾实体是由多个单词组成, 当前对齐是头实体和尾
实体的首 单词;
SMT表示头实体是由单个单词组成, 尾实体是由多个单词组成, 当前对齐是头实体的首
单词和尾实体的尾单词;
MSH表示头实体是由多个单词组成, 尾实体是由单个单词组成, 当前对齐是头实体和尾
实体的首 单词;
MST表示头实体是由多个单词组成, 尾实体是由单个单词组成, 当前对齐是头实体的尾
单词和尾实体的首 单词;
MMH表示头实体和尾实体都是由多个单词组成, 当前对齐是头实体和尾实体的首 单词;
MMT表示头实体是由多个单词组成, 尾实体是由单个单词组成, 当前对齐是头实体的首
单词和尾实体的尾单词或头实体的尾单词和尾实体的尾单词;
A表示空标签。
7.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
步骤4所述联合抽取层在所有预定义关系下枚举所有的词对(Embi,Embj), 为其分配 高置信
度标签实现解码。
8.根据权利要求7所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
步骤4所述联合抽取层应用两个低维度的多层感知器MLPs把高维单词语义向量映射到低维
实体表示向量:
hi=MLPhead(Embi),
tj=MLPtail(Embj)
其中, MLP表示多层感知机;
为多层感知机维度;
de为实体表示的维度;
head, tai l分别表示头实体和尾实体。
9.根据权利要求8所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于,
步骤4所述联合抽取层基于低 维实体表示向量, 经过一次计算为每个单词对在所有预定义
关系下进行 标签打分, 打分公式为:
其中, y(hi,rq,tj)是训练集中标注的标签;
ReLU表示激活函数;
drop表示dropout策略;
是一个可训练的关系投影参数矩阵;
8表示分类的标签 个数。权 利 要 求 书 2/2 页
3
CN 115510855 A
3
专利 多关系词对标签空间的实体关系联合抽取方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:13:21上传分享