专利 一种基于增强网络转换模型的少样本关系抽取方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211163013.1 (22)申请日 2022.09.23 (71)申请人武汉问道信息技术有限公司地址 430000 湖北省武汉市东西湖区张柏路东、长兴电器南 (72)发明人高飞　陈莉　张艺家　胡丰　卢万　吴海周　杨逸岱　彭心玥　 (74)专利代理机构浙江千克知识产权代理有限公司 33246 专利代理师任婷婷 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于增强网络转换模型的少样本关系抽取方法及装置 (57)摘要本申请公开了一种基于增强网络转换模型的少样本关系抽取方法及装置，其方法包括：对数据集中每个句子进行转化处理，得到与数据集对应的句子向量；对与数据集对应的句子向量进行编码处理，并基于处理后的与数据集对应的句子向量得到与样本关系对应的原型数据；确定与样本关系对应的原型数据以及查询集之间的相似度，并根据相似度的结果以及自然语言处理模型得到查询集的注意力特征。相较于传统神经神经网络可得到突出关系的更多判别特征，并解决卷积神经网络无法捕获具有长距离关系等更复杂的特征的局限性，不仅减少人工标注语料的成本，解决大数据量关系抽取时训练语料匮乏的问题，还可有效保障预测结果的精度。权利要求书2页说明书12页附图2页 CN 115392258 A 2022.11.25 CN 115392258 A 1.一种基于增强网络转换模型的少样本关系抽取方法，其特征在于，包括：对数据集中每个句子进行转化处理，得到与所述数据集对应的句子向量；对所述与所述数据集对应的句子向量进行编码处理，并基于处理后的所述与所述数据集对应的句子向量得到与样本关系对应的原型数据；确定所述与样本关系对应的原型数据以及查询集之间的相似度，并根据所述相似度的结果以及自然语言处理模型得到所述查询集的注意力特征；其中，所述查询集基于所述与所述数据集对应的句子向量确定。 2.根据权利要求1所述的方法，其特征在于，所述对数据集中每个句子进行转化处理，得到与所述数据集对应的句子向量，包括：将数据集中每个句子输入至训练后的词嵌入模型中，得到每个所述句子的词向量；记录每个所述句子中每个单词的位置向量，并对每个所述句子的词向量以及所述每个所述句子中每个单词的位置向量进行拼接处理，得到与所述数据集对应的句子向量。 3.根据权利要求2所述的方法，其特征在于，所述记录每个所述句子中每个单词的位置向量之前，还包括：获取每个所述句子对应的句子长度；当检测到所述每个所述句子对应的句子长度小于预设句子长度时，对每个所述句子进行空表填充处理，以使处理后的所述每个所述句子对应的句子长度等于所述预设句子长度；当检测到所述每个所述句子对应的句子长度大于所述预设句子长度时，按照预设划分方式对每个所述句子进行剪断处理，以使处理后的所述每个所述句子对应的句子长度等于所述预设句子长度。 4.根据权利要求1所述的方法，其特征在于，所述对所述与所述数据集对应的句子向量进行编码处理，并基于处理后的所述与所述数据集对应的句子向量得到与样本关系对应的原型数据，包括：对所述与所述数据集对应的句子向量进行分类处理，并从每类所述句子向量中抽取任意至少两个句子向量作为支持集；将所述支持集输入至训练后的语言表征模型，得到经过编码处理后的所述支持集；基于示例级选择器在处理后的所述支持集中确定出与样本关系对应的原型数据。 5.根据权利要求4所述的方法，其特征在于，所述对所述与所述数据集对应的句子向量进行分类处理，并从每类所述句子向量中抽取任意至少两个句子向量作为支持集之后，还包括：将每类所述句子向量中剩余的所有句子向量作为查询集。 6.根据权利要求5所述的方法，其特征在于，所述确定所述与样本关系对应的原型数据以及查询集之间的相似度，包括：计算所述与样本关系对应的原型数据以及所述查询集中每个句子向量之间的欧几里得距离；根据预设转换关系将计算出的所述欧几里得距离转换为相似度。 7.根据权利要求6所述的方法，其特征在于，所述根据所述相似度的结果以及自然语言处理模型得到所述查询集的注意力特征，包括：权　利　要　求　书 1/2 页 2 CN 115392258 A 2在所述查询集中筛选出所述相似度高于预设阈值的所有句子向量；将筛选出的所述所有句子向量以及所述支持集中所有句子向量输入至自然语言处理模型，得到所述查询集中每个句子的注意力特征。 8.一种基于增强网络转换模型的少样本关系抽取装置，其特征在于，包括：数据转换模块，用于对数据集中每个句子进行转化处理，得到与所述数据集对应的句子向量；数据处理模块，用于对所述与所述数据集对应的句子向量进行编码处理，并基于处理后的所述与所述数据集对应的句子向量得到与样本关系对应的原型数据；数据分析模块，用于确定所述与样本关系对应的原型数据以及查询集之间的相似度，并根据所述相似度的结果以及自然语言处理模型得到所述查询集的注意力特征；其中，所述查询集基于所述与所述数据集对应的句子向量确定。 9.一种基于增强网络转换模型的少样本关系抽取装置，其特征在于，包括处理器以及存储器；所述处理器与所述存储器连接；所述存储器，用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1 ‑7任一项所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1 ‑7任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115392258 A 3

专利 一种基于增强网络转换模型的少样本关系抽取方法及装置

专利一种基于增强网络转换模型的少样本关系抽取方法及装置