(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211151607.0
(22)申请日 2022.09.21
(71)申请人 燕山大学
地址 066004 河北省秦皇岛市海港区河北
大街438号
(72)发明人 宫继兵 房小涵 彭吉全 赵祎
赵金烨 王成龙 黄朝园
(74)专利代理 机构 石家庄众志华清知识产权事
务所(特殊普通 合伙) 13123
专利代理师 田秀芬
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于对比学习和异构图注意力网络的作者
名称消歧方法
(57)摘要
本发明公开了基于对比学习和异构图注意
力网络的作者名称消歧方法, 属于知识图谱构建
的实体消歧技术领域, 包括使用MongoDB存取论
文名称、 作者、 机构等信息, 使用pyt hon的字符 处
理库对数据进行清洗, 去除噪声获得更加规范的
文本, 清洗成适用于后续步骤的数据; 使用对比
学习对论文进行表征学习, 获得论文的统一编码
的嵌入; 以纯度优先为原则对论文进行聚类, 缓
解论文过合并问题, 得到论文簇; 对上一步得到
的论文簇使用异构图注意力网络进行对齐; 提出
过拆分检测和过拆 分对齐算法, 保证论文消歧质
量。 本发明更好的实现了同名作者消歧的消歧问
题, 在一定程度上解决了论文过合并和论文 过拆
分的问题。
权利要求书2页 说明书6页 附图2页
CN 115481247 A
2022.12.16
CN 115481247 A
1.一种基于对比学习和异构图注意力网络的作者名称消 歧方法, 其特征在于: 包括以
下步骤:
S1, 数据预处理: 使用MongoDB存取论文名称、 作者、 机构信息, 使用python的字符处理
库对数据进行清洗, 去除噪声获得 更加规范的文本, 清洗成适用于后续 步骤的数据;
S2, 论文表征 学习: 使用对比学习对论文 进行表征 学习, 获得论文的统一编码的嵌入;
S3, 论文初步聚类: 以纯度优先为原则对论文进行聚类, 缓解论文过合并问题, 得到论
文簇;
S4, 论文簇的对齐: 对上一 步得到的论文簇使用异构图注意力网络进行对齐;
S5, 获得论文消歧结果: 提出 过拆分检测 和过拆分对齐算法, 保证论文消歧质量。
2.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方
法, 其特征在于: S2中, 具体包括:
S21, 使用语言预训练模型BERT获取论文表征, 此 过程描述 为:
式中,
是作者a的第i 篇论文,
是论文
对应的表征向量;
S22, 构造正例对
构造负例对
并对正例和负例进行组
合;
S23, 引入训练的目标函数h=f(ber t(x)), 训练的目标损失
描述为:
式中, N为最小batc h_size, τ 是temperature超参数, sim(h1, h2)为余弦相似度
S24, 经过训练后最终得到论文的表示向量vi。
3.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方
法, 其特征在于: S3中, 具体包括:
S31, 通过将聚类过程作为消歧的中间过程, 按照规则将论文划分成更多 的簇, 降低同
一簇中出现不同作者的情况;
S32, 通过Li ghtGBN和层次聚类模型进行 聚类, 采用损失函数的负梯度作为当前决策树
的残差近似值, 去拟合 新的决策树;
S33, 提出指标Recal lover‑merge去描述聚类结果的过合并现象, 此指标定义描述 为:
式中, P表示两个同一作者论文在同一个簇 中的情况数量; FN表示两个同一作者论文分
别在两个簇中的情况数量; M为理想聚类结果数, N为实际聚簇结果数; Recallover‑merge值越
高聚类所 带来的过拆分程度就越低。
4.根据权利要求1所述的基于对比学习和异构图注意力网络的作者名称消歧方法, 其权 利 要 求 书 1/2 页
2
CN 115481247 A
2特征在于: S4中, 具体包括:
S41, 为名称相同的作者实体生成候选对;
S42, 对于每一个作者实体, 构建异构图, 如果候选对之间的机构、 合著者名称相同或者
论文相似, 则相互连接, 得到异构图G(V,E);
S43, 利用异构图注意力网络确定作者匹配。
5.根据权利要求4所述的一种基于对比学习和异构图注意力网络的作者名称消歧方
法, 其特征在于: S43中, 具体包括:
S431, 通过S2的表示学习模型得到每一个论文实体的语义嵌入, 通过LINE模型对S42中
构建的异构图进行训练, 得到每 个实体的结构嵌入;
S432, 将两种嵌入合并在一起作为输入特征f, 通过self ‑attention求出不同作者实体
e之间的重要性, 此 过程描述 为:
tij=self‑attention(Wfi, Wfj)
式中, W为共享的权 重矩阵, 对于每一个
指的是ei的所有邻居节点。
6.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方
法, 其特征在于: S5中, 具体包括:
S51, 按照排列组合的规则生成无重复的Pairs<name:cid1,name:cid2>, 构建异构图;
S52, 使用预 先训练好的HGAT 去检测一组pair是否从属于一个作者;
S53, 通过给出对齐规则对论文簇进行对齐;
S54, 过程需要进行多次, 次数定义为loops, 最终得出的cluster_pubs为最后的消歧结
果。
7.根据权利要求6所述的一种基于对比学习和异构图注意力网络的作者名称消歧方
法, 其特征在于: S5 3中, 具体包括:
S531, 计算每个节点的临边节点取判断为对齐两两节点的相似度 得分最高的一组边进
行连接;
S532, 在所有节点都进行判定后, 使用dfs实现联通子图算法, 得出对齐规则, 并进行合
并。权 利 要 求 书 2/2 页
3
CN 115481247 A
3
专利 基于对比学习和异构图注意力网络的作者名称消歧方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:46上传分享