iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211171497.4 (22)申请日 2022.09.26 (71)申请人 南京航空航天大 学 地址 211106 江苏省南京市江宁区秣陵街 道将军大道 29号 (72)发明人 王立松 孙明杰  (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 张力 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/242(2020.01) G06N 20/00(2019.01) (54)发明名称 多关系词对标签空间的实体关系联合抽取 方法 (57)摘要 本发明公开了多关系词对标签空间的实体 关系联合抽取方法, 输入层接收英文训练样本或 预测阶段的样本; T okenize层将输入层接收到的 样本句子根据词表进行Token化, 经过Bert编码 后, 得到Token语义表示向量以及得到记录单词 在token序列起始位置的字典; Maxpooling层, 基 于所述字典, 将Token语义表示向量进行最大池 化, 得到句子中每个单词的语义向量表示; 联合 抽取层枚举句子中所有的词对, 并为其在所有预 定义关系空间下进行标签打分, 最后根据标签特 征进行联合抽取。 本发明使 得在复杂关系下进行 实体关系联合抽取的效果和效率得到了进一步 的提升, 为自然语 言处理的底层提供了更好的保 障。 权利要求书2页 说明书8页 附图2页 CN 115510855 A 2022.12.23 CN 115510855 A 1.多关系词对标签空间的实体关系联合抽取方法, 基于实体关系联合抽取模型实现, 所述实体关系联合抽取模型包括输入层、 Tokenize层、 Max  pooling层和联合抽取层, 其特 征在于, 所述方法包括: 步骤1、 输入层接收英文训练样本或预测阶段的样本; 步骤2、 Tokenize层将输入层接收到的样本句子根据词表进行Token化, 经过Bert编码 后, 得到To ken语义表示向量以及得到记录单词在to ken序列起始位置的字典; 步骤3、 Max  pooling层, 基于所述字典, 将Token语义表示向量进行最大池化, 得到句子 中每个单词的语义向量表示; 步骤4、 基于步骤3的处理, 联合抽取层 枚举句子中所有的词对, 并为其在所有预定义关 系空间下进行 标签打分, 最后根据标签特 征进行联合抽取。 2.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 步骤2所述Tokenize层使用到的是PyTorch  Keras Bert包中的Tokenizer将输入层接收到 的样本句子根据词表进行To ken化。 3.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 所述步骤2对于句子W={w1,w2,...,wX}, wi表示句子中的第i个单词, 经过Token化和Bert编 码后, 得到Token语义表 示向量 其中N表示token个数, ti表示第i 个token, Wenc表示句子中所有token编码后的语义向量, d是语义向量维度大小, 以及得到记 录单词在to ken序列起始位置的字典I ndex。 4.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 步骤3利用Max  pooling操作把to ken语义表示向量融合 为词向量表示, 公式为: Index=[(1,n1)1,(n1+1,n2)2,...,(ni,n)X], 其中, Index指的是在To kenize层得到的记录单词在to ken序列起始位置的字典; [:]是序列的切片操作; Embi表示得到的第i个单词的向量表示。 5.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 步骤4采用的标签策略具体如下: 对于一个输入的句子样本W={w1,w2,...,wX}和一组预定义的关系集合R={ r1,r2,..., rQ}, 生成一个Q维的标签矩阵TMQ×X×X, 其中X表示句子的长度, ri表示关系集合 中的第i种关 系, Q为关系的总数; 矩阵TM的每一个维度都与R中一种关系相对应, 每一个方格中会有一个模型生成的具 有特定含义的标签; 矩阵中的行和列分别表示头实体和尾实体; 所述解码就是根据特定的标签含义, 在矩阵中一次性抽取 出所有预测的三元组。 6.根据权利要求5所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 所述标签策略根据实体长度的特 征和头实体 尾实体对齐的方式设置八种标签: SS,SMH,SMT,MSH,MST,M MH,MMT,A; 其中, SS表示头实体和尾实体都是由单个单词组成;权 利 要 求 书 1/2 页 2 CN 115510855 A 2SMH表示头实体是由单个单词组成, 尾实体是由多个单词组成, 当前对齐是头实体和尾 实体的首 单词; SMT表示头实体是由单个单词组成, 尾实体是由多个单词组成, 当前对齐是头实体的首 单词和尾实体的尾单词; MSH表示头实体是由多个单词组成, 尾实体是由单个单词组成, 当前对齐是头实体和尾 实体的首 单词; MST表示头实体是由多个单词组成, 尾实体是由单个单词组成, 当前对齐是头实体的尾 单词和尾实体的首 单词; MMH表示头实体和尾实体都是由多个单词组成, 当前对齐是头实体和尾实体的首 单词; MMT表示头实体是由多个单词组成, 尾实体是由单个单词组成, 当前对齐是头实体的首 单词和尾实体的尾单词或头实体的尾单词和尾实体的尾单词; A表示空标签。 7.根据权利要求1所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 步骤4所述联合抽取层在所有预定义关系下枚举所有的词对(Embi,Embj), 为其分配 高置信 度标签实现解码。 8.根据权利要求7所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 步骤4所述联合抽取层应用两个低维度的多层感知器MLPs把高维单词语义向量映射到低维 实体表示向量: hi=MLPhead(Embi), tj=MLPtail(Embj) 其中, MLP表示多层感知机; 为多层感知机维度; de为实体表示的维度; head, tai l分别表示头实体和尾实体。 9.根据权利要求8所述的多关系词对标签空间的实体关系联合抽取方法, 其特征在于, 步骤4所述联合抽取层基于低 维实体表示向量, 经过一次计算为每个单词对在所有预定义 关系下进行 标签打分, 打分公式为: 其中, y(hi,rq,tj)是训练集中标注的标签; ReLU表示激活函数; drop表示dropout策略; 是一个可训练的关系投影参数矩阵; 8表示分类的标签 个数。权 利 要 求 书 2/2 页 3 CN 115510855 A 3

.PDF文档 专利 多关系词对标签空间的实体关系联合抽取方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多关系词对标签空间的实体关系联合抽取方法 第 1 页 专利 多关系词对标签空间的实体关系联合抽取方法 第 2 页 专利 多关系词对标签空间的实体关系联合抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:13:21上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。