iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211195015.9 (22)申请日 2022.09.29 (65)同一申请的已公布的文献号 申请公布号 CN 115309915 A (43)申请公布日 2022.11.08 (73)专利权人 北京如炬 科技有限公司 地址 100088 北京市海淀区中关村大街18 号B座9层909室396号 (72)发明人 王乐  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 张晓霞 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/151(2020.01)G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 5/02(2006.01) (56)对比文件 WO 20180725 63 A1,2018.04.26 CN 113704392 A,2021.1 1.26 CN 113434634 A,2021.09.24 CN 113971398 A,202 2.01.25 CN 114238653 A,2022.03.25 审查员 王怡轩 (54)发明名称 知识图谱构建方法、 装置、 设备和存 储介质 (57)摘要 本发明提供一种知识图谱构建方法、 装置、 设备和存储介质, 应用于信息处理技术领域, 该 方法包括: 获取特定领域的多个目标语料; 将多 个目标语料输入实体关系抽取模 型中, 得到多个 目标语料中的多个目标实体以及多个目标实体 中头实体和尾实体之间的目标关系, 其中, 实体 关系抽取模型为根据本体库对初始语料库中的 第一语料进行 实体标注后, 基于标注后的第一语 料对初始模型中的初始实体关系抽取模型进行 训练得到的, 本体库中包括通用领域的概念层本 体和特定 领域的领域层本体, 领域层本体为基于 概念层本体进行扩展 得到的; 根据多个目标实体 以及目标关系, 构建面向特定领域的知识图谱。 本发明中, 使得构建出的面向特定领域的知 识图 谱准确性更高。 权利要求书2页 说明书14页 附图5页 CN 115309915 B 2022.12.09 CN 115309915 B 1.一种知识图谱构建方法, 其特 征在于, 包括: 获取特定领域的多个目标语料, 所述多个目标语料的格式统一; 将所述多个目标语料输入实体关系抽取模型中, 得到所述多个目标语料中的多个目标 实体以及所述多个目标实体中头实体和尾实体之间的目标关系, 其中, 所述实体关系抽取 模型为根据本体库对初始语料库中的第一语料进 行实体标注后, 基于标注后的第一语料对 初始模型中的初始实体关系抽取模型进行训练得到的, 所述本体库中包括通用领域的概念 层本体和特定领域的领域层本体, 所述领域层本体为基于所述概念层本体进行扩展得到 的; 根据所述多个目标实体以及所述目标关系, 构建面向特定领域的知识图谱。 2.根据权利要求1所述的知识图谱构建方法, 其特征在于, 所述实体关系抽取模型根据 如下方法训练得到: 获取初始语料库, 所述初始语料库中包括多个已进行实体标注的第 一语料和多个未进 行实体标注的第二语料, 所述第一语料为基于 本体库进行 标注的; 将所述第二语料输入至初始模型中的领域层实体标注模型中, 得到多个进行实体标注 的第三语料; 将目标语料输入所述初始模型中的初始实体关系抽取模型中, 基于对比学习损失函 数, 调整所述初始实体 关系抽取模型的模型参数, 得到所述 实体关系抽取模型, 所述目标语 料包括所述第一语料和所述第三语料。 3.根据权利要求2所述的知识图谱构建方法, 其特 征在于, 所述获取初始语料库, 包括: 确定待采集的语料对应的多个数据来源; 分别确定所述多个数据来源各自对应的数据适配 器; 通过所述数据适配器, 从对应的数据来源中采集语料, 得到所述初始语料库, 所述初始 语料库中包括多个 格式统一的语料。 4.根据权利要求2或3所述的知识图谱构建方法, 其特征在于, 所述将所述第二语料输 入至初始模型中的领域层实体标注模型中, 得到多个第三语料之前, 所述方法还 包括: 获取所述通用领域的多个样本语料; 采用所述多个样本语料, 对初始概念层实体标注模型进行训练, 得到概念层实体标注 模型; 将所述概念层实体标注模型的模型参数迁移至所述初始模型中的初始领域层实体标 注模型中, 并基于所述第一语料对迁移了模型参数 的初始领域层实体标注模型进行训练, 得到所述初始模型中的领域层实体标注模型。 5.根据权利要求2或3所述的知识图谱构建方法, 其特征在于, 所述将目标语料输入所 述初始模型中的初始实体关系抽取模型中, 基于对比学习损失函数, 调整所述初始实体关 系抽取模型的模型参数, 得到所述实体关系抽取模型, 包括: 将所述目标语料输入所述初始实体关系抽取模型中, 通过所述初始实体关系抽取模型 中的编码器对所述目标语料进行编码, 得到多个分布式向量; 通过所述初始实体关系抽取模型中的实体解码器, 分别将所述多个分布式向量转换为 实体标签, 所述实体标签用于表示所述目标语料中的实体; 通过所述初始实体关系抽取模型中的关系解码器, 确定所述多个分布式向量中的头实权 利 要 求 书 1/2 页 2 CN 115309915 B 2体向量和尾实体向量之间的关系; 根据所述实体标签、 所述关系和所述目标语料的实体标注信息, 基于对比学习损 失函 数, 调整所述初始实体关系抽取模型的模型参数, 得到所述实体关系抽取模型。 6.根据权利要求5所述的知识图谱构建方法, 其特征在于, 所述根据所述实体标签、 所 述关系和所述 目标语料 的实体标注信息, 基于对比学习损失函数, 调整所述初始实体关系 抽取模型的模型参数, 得到所述实体关系抽取模型, 包括: 根据所述实体标签和所述目标语料的实体标注信息, 基于对比学习损 失函数, 确定对 比损失; 所述对比损失包括类间对比损失、 类内对比损失和层次间对比损失, 所述类间对比 损失为基于不同概念层本体的实体确定出的损失, 所述类内对比损失为基于同一概念层本 体、 且不属于同一领域层本体的实体确定出 的损失, 所述层次间对比损失为基于概念层本 体的实体和领域层本体的实体确定出的损失; 根据所述目标语料的实体标注信息和所述关系, 确定第一损失; 根据所述对比损失和所述第一损失, 确定目标损失; 根据所述目标损 失, 调整所述初始实体关系抽取模型的模型参数, 得到所述实体关系 抽取模型。 7.根据权利要求6所述的知识图谱构建方法, 其特征在于, 所述根据所述目标损 失, 调 整所述初始实体关系抽取模型的模型参数, 得到所述实体关系抽取模型, 包括: 确定领域层本体中心的中心向量; 根据所述实体标签对应的实体向量和所述中心向量, 确定中心损失; 根据所述中心损失, 对所述目标损失进行 更新, 得到更新后的目标损失; 根据所述更新后的目标损 失, 调整所述初始实体关系抽取模型的模型参数, 得到所述 实体关系抽取模型。 8.一种知识图谱构建装置, 其特 征在于, 包括: 获取单元, 用于获取 特定领域的多个目标语料, 所述多个目标语料的格式统一; 处理单元, 用于将所述多个目标语料输入实体关系抽取模型中, 得到所述多个目标语 料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系, 其中, 所 述实体关系抽取模型为根据本体库对初始语料库中的第一语料进 行实体标注后, 基于标注 后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的, 所述本体库中包括 通用领域的概念层本体和特定领域的领域层本体, 所述领域层本体为基于所述概念层本体 进行扩展得到的; 构建单元, 用于根据所述多个目标实体以及所述目标关系, 构建面向特定领域的知识 图谱。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述知识图谱构建方法。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至7任一项所述知识图谱构建方法。权 利 要 求 书 2/2 页 3 CN 115309915 B 3

PDF文档 专利 知识图谱构建方法、装置、设备和存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱构建方法、装置、设备和存储介质 第 1 页 专利 知识图谱构建方法、装置、设备和存储介质 第 2 页 专利 知识图谱构建方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。