专利 基于对比学习和异构图注意力网络的作者名称消歧方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211151607.0 (22)申请日 2022.09.21 (71)申请人燕山大学地址 066004 河北省秦皇岛市海港区河北大街438号 (72)发明人宫继兵　房小涵　彭吉全　赵祎　赵金烨　王成龙　黄朝园　 (74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙) 13123 专利代理师田秀芬 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于对比学习和异构图注意力网络的作者名称消歧方法 (57)摘要本发明公开了基于对比学习和异构图注意力网络的作者名称消歧方法，属于知识图谱构建的实体消歧技术领域，包括使用MongoDB存取论文名称、作者、机构等信息，使用pyt hon的字符处理库对数据进行清洗，去除噪声获得更加规范的文本，清洗成适用于后续步骤的数据；使用对比学习对论文进行表征学习，获得论文的统一编码的嵌入；以纯度优先为原则对论文进行聚类，缓解论文过合并问题，得到论文簇；对上一步得到的论文簇使用异构图注意力网络进行对齐；提出过拆分检测和过拆分对齐算法，保证论文消歧质量。本发明更好的实现了同名作者消歧的消歧问题，在一定程度上解决了论文过合并和论文过拆分的问题。权利要求书2页说明书6页附图2页 CN 115481247 A 2022.12.16 CN 115481247 A 1.一种基于对比学习和异构图注意力网络的作者名称消歧方法，其特征在于：包括以下步骤： S1，数据预处理：使用MongoDB存取论文名称、作者、机构信息，使用python的字符处理库对数据进行清洗，去除噪声获得更加规范的文本，清洗成适用于后续步骤的数据； S2，论文表征学习：使用对比学习对论文进行表征学习，获得论文的统一编码的嵌入； S3，论文初步聚类：以纯度优先为原则对论文进行聚类，缓解论文过合并问题，得到论文簇； S4，论文簇的对齐：对上一步得到的论文簇使用异构图注意力网络进行对齐； S5，获得论文消歧结果：提出过拆分检测和过拆分对齐算法，保证论文消歧质量。 2.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法，其特征在于： S2中，具体包括： S21，使用语言预训练模型BERT获取论文表征，此过程描述为：式中，是作者a的第i 篇论文，是论文对应的表征向量； S22，构造正例对构造负例对并对正例和负例进行组合； S23，引入训练的目标函数h＝f(ber t(x))，训练的目标损失描述为：式中， N为最小batc h_size， τ 是temperature超参数， sim(h1， h2)为余弦相似度 S24，经过训练后最终得到论文的表示向量vi。 3.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法，其特征在于： S3中，具体包括： S31，通过将聚类过程作为消歧的中间过程，按照规则将论文划分成更多的簇，降低同一簇中出现不同作者的情况； S32，通过Li ghtGBN和层次聚类模型进行聚类，采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树； S33，提出指标Recal lover‑merge去描述聚类结果的过合并现象，此指标定义描述为：式中， P表示两个同一作者论文在同一个簇中的情况数量； FN表示两个同一作者论文分别在两个簇中的情况数量； M为理想聚类结果数， N为实际聚簇结果数； Recallover‑merge值越高聚类所带来的过拆分程度就越低。 4.根据权利要求1所述的基于对比学习和异构图注意力网络的作者名称消歧方法，其权　利　要　求　书 1/2 页 2 CN 115481247 A 2特征在于： S4中，具体包括： S41，为名称相同的作者实体生成候选对； S42，对于每一个作者实体，构建异构图，如果候选对之间的机构、合著者名称相同或者论文相似，则相互连接，得到异构图G(V,E)； S43，利用异构图注意力网络确定作者匹配。 5.根据权利要求4所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法，其特征在于： S43中，具体包括： S431，通过S2的表示学习模型得到每一个论文实体的语义嵌入，通过LINE模型对S42中构建的异构图进行训练，得到每个实体的结构嵌入； S432，将两种嵌入合并在一起作为输入特征f，通过self ‑attention求出不同作者实体 e之间的重要性，此过程描述为： tij＝self‑attention(Wfi， Wfj) 式中， W为共享的权重矩阵，对于每一个指的是ei的所有邻居节点。 6.根据权利要求1所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法，其特征在于： S5中，具体包括： S51，按照排列组合的规则生成无重复的Pairs<name:cid1,name:cid2>，构建异构图； S52，使用预先训练好的HGAT 去检测一组pair是否从属于一个作者； S53，通过给出对齐规则对论文簇进行对齐； S54，过程需要进行多次，次数定义为loops，最终得出的cluster_pubs为最后的消歧结果。 7.根据权利要求6所述的一种基于对比学习和异构图注意力网络的作者名称消歧方法，其特征在于： S5 3中，具体包括： S531，计算每个节点的临边节点取判断为对齐两两节点的相似度得分最高的一组边进行连接； S532，在所有节点都进行判定后，使用dfs实现联通子图算法，得出对齐规则，并进行合并。权　利　要　求　书 2/2 页 3 CN 115481247 A 3

专利 基于对比学习和异构图注意力网络的作者名称消歧方法

专利基于对比学习和异构图注意力网络的作者名称消歧方法