iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151607.0 (22)申请日 2022.09.21 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 房小涵 彭吉全 赵祎  赵金烨 王成龙 黄朝园  (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 专利代理师 田秀芬 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于对比学习和异构图注意力网络的作者 名称消歧方法 (57)摘要 本发明公开了基于对比学习和异构图注意 力网络的作者名称消歧方法, 属于知识图谱构建 的实体消歧技术领域, 包括使用MongoDB存取论 文名称、 作者、 机构等信息, 使用pyt hon的字符 处 理库对数据进行清洗, 去除噪声获得更加规范的 文本, 清洗成适用于后续步骤的数据; 使用对比 学习对论文进行表征学习, 获得论文的统一编码 的嵌入; 以纯度优先为原则对论文进行聚类, 缓 解论文过合并问题, 得到论文簇; 对上一步得到 的论文簇使用异构图注意力网络进行对齐; 提出 过拆分检测和过拆 分对齐算法, 保证论文消歧质 量。 本发明更好的实现了同名作者消歧的消歧问 题, 在一定程度上解决了论文过合并和论文 过拆 分的问题。 权利要求书2页 说明书6页 附图2页 CN 115481247 A 2022.12.16 CN 115481247 A 1.一种基于对比学习和异构图注意力网络的作者名称消 歧方法, 其特征在于: 包括以 下步骤: S1, 数据预处理: 使用MongoDB存取论文名称、 作者、 机构信息, 使用python的字符处理 库对数据进行清洗, 去除噪声获得 更加规范的文本, 清洗成适用于后续 步骤的数据; S2, 论文表征 学习: 使用对比学习对论文 进行表征 学习, 获得论文的统一编码的嵌入; S3, 论文初步聚类: 以纯度优先为原则对论文进行聚类, 缓解论文过合并问题, 得到论 文簇; S4, 论文簇的对齐: 对上一 步得到的论文簇使用异构图注意力网络进行对齐; S5, 获得论文消歧结果: 提出 过拆分检测 和过拆分对齐算法, 保证论文消歧质量。 2.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方 法, 其特征在于: S2中, 具体包括: S21, 使用语言预训练模型BERT获取论文表征, 此 过程描述 为: 式中, 是作者a的第i 篇论文, 是论文 对应的表征向量; S22, 构造正例对 构造负例对 并对正例和负例进行组 合; S23, 引入训练的目标函数h=f(ber t(x)), 训练的目标损失 描述为: 式中, N为最小batc h_size, τ 是temperature超参数, sim(h1, h2)为余弦相似度 S24, 经过训练后最终得到论文的表示向量vi。 3.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方 法, 其特征在于: S3中, 具体包括: S31, 通过将聚类过程作为消歧的中间过程, 按照规则将论文划分成更多 的簇, 降低同 一簇中出现不同作者的情况; S32, 通过Li ghtGBN和层次聚类模型进行 聚类, 采用损失函数的负梯度作为当前决策树 的残差近似值, 去拟合 新的决策树; S33, 提出指标Recal lover‑merge去描述聚类结果的过合并现象, 此指标定义描述 为: 式中, P表示两个同一作者论文在同一个簇 中的情况数量; FN表示两个同一作者论文分 别在两个簇中的情况数量; M为理想聚类结果数, N为实际聚簇结果数; Recallover‑merge值越 高聚类所 带来的过拆分程度就越低。 4.根据权利要求1所述的基于对比学习和异构图注意力网络的作者名称消歧方法, 其权 利 要 求 书 1/2 页 2 CN 115481247 A 2特征在于: S4中, 具体包括: S41, 为名称相同的作者实体生成候选对; S42, 对于每一个作者实体, 构建异构图, 如果候选对之间的机构、 合著者名称相同或者 论文相似, 则相互连接, 得到异构图G(V,E); S43, 利用异构图注意力网络确定作者匹配。 5.根据权利要求4所述的一种基于对比学习和异构图注意力网络的作者名称消歧方 法, 其特征在于: S43中, 具体包括: S431, 通过S2的表示学习模型得到每一个论文实体的语义嵌入, 通过LINE模型对S42中 构建的异构图进行训练, 得到每 个实体的结构嵌入; S432, 将两种嵌入合并在一起作为输入特征f, 通过self ‑attention求出不同作者实体 e之间的重要性, 此 过程描述 为: tij=self‑attention(Wfi, Wfj) 式中, W为共享的权 重矩阵, 对于每一个 指的是ei的所有邻居节点。 6.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方 法, 其特征在于: S5中, 具体包括: S51, 按照排列组合的规则生成无重复的Pairs<name:cid1,name:cid2>, 构建异构图; S52, 使用预 先训练好的HGAT 去检测一组pair是否从属于一个作者; S53, 通过给出对齐规则对论文簇进行对齐; S54, 过程需要进行多次, 次数定义为loops, 最终得出的cluster_pubs为最后的消歧结 果。 7.根据权利要求6所述的一种基于对比学习和异构图注意力网络的作者名称消歧方 法, 其特征在于: S5 3中, 具体包括: S531, 计算每个节点的临边节点取判断为对齐两两节点的相似度 得分最高的一组边进 行连接; S532, 在所有节点都进行判定后, 使用dfs实现联通子图算法, 得出对齐规则, 并进行合 并。权 利 要 求 书 2/2 页 3 CN 115481247 A 3

PDF文档 专利 基于对比学习和异构图注意力网络的作者名称消歧方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于对比学习和异构图注意力网络的作者名称消歧方法 第 1 页 专利 基于对比学习和异构图注意力网络的作者名称消歧方法 第 2 页 专利 基于对比学习和异构图注意力网络的作者名称消歧方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。