(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211187813.7
(22)申请日 2022.09.28
(71)申请人 南京邮电大 学
地址 210023 江苏省南京市栖霞区文苑路9
号
(72)发明人 李炜卓 罗维柒 张浩魏 边宇阳
周文博 隋永波 季秋 高辉
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 朱远枫
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 5/02(2006.01)
(54)发明名称
一种面向多 源移动应用知识图谱构建方法
(57)摘要
本发明公开了一种面向多源移动应用知识
图谱构建方法, 基于获取的来自不同数据源的移
动应用数据, 生成三元组集合; 对实体与关系进
行编码, 获得对应的向量表示; 计算实体向量之
间的相似度, 将相似度超 过设定阈值的向量表示
所对应的实体确定为初始语义等价实体对, 并确
定种子集合; 根据元规则从种子集合中推理出潜
在语义等价实体对; 计算潜在语义等价实体对成
立的概率; 将计算的概率与设定概率阈值比较,
根据比较结果最终确定多源移动应用中实体之
间的语义等价关系,进而获得多源移动应用知识
图谱。 本发 明可以显著降低多源 数据在知识图谱
构建过程中实体 语义等价关系的人工标注成本 。
权利要求书5页 说明书12页 附图3页
CN 115292520 A
2022.11.04
CN 115292520 A
1.一种面向多源移动应用知识图谱构建方法, 其特 征在于, 包括:
基于获取的来自不同数据源的移动应用数据, 生成三元组集合{(So_appz, r,e)}, 其中
So_appz对应头实体, So_appz定义为第 o种数据来源编号为 z的移动应用, r 对应关系, e对应
尾实体;
分别对实体与关系进行编码, 获得对应的向量表示;
利用余弦值计算实体向量之间的相似度, 将相似度超过设定 阈值的向量表示所对应的
实体初步确定为实体的语义 等价对;
根据初步确定的实体的语义等价对确定种子集合, 根据 元规则从所述种子集合中推理
出潜在的实体或关系的语义 等价对;
根据概率图模型计算潜在的实体或关系的语义等价对成立的概率; 将计算的概率与设
定概率阈值比较, 根据比较结果最终确定多源移动应用中实体或关系之间的语义等价关
系, 进而获得多源移动应用知识图谱。
2.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法, 其特征在于, 分别
对实体与关系进行编码, 获得对应的向量表示, 包括:
采用“主语谓语为宾语 ”的形式对每个三元组进行句子陈述表达, 句子表示为: (So_appz
[SEP]r[SEP]为[SEP]e); 其中[SEP]为分词符标识, “So_appz”、“r” 、“为”和“e”均看作是分
词过程中的词块;
将句子作为输入, 采用适配中文预训练模型BERT对分词获得的词块进行编码, 获得每
个三元组中 “So_appz”、“r”和“e”的向量表示。
3.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法, 其特征在于, 对实
体与关系进行编码的过程中, 基于同义词词典将分词后词块中的名词或者形容词按照替换
概率随机替换为 其同义词, 替换概 率的计算公式如下:
;
其中,ti为句子中的词块, nw为句子中词块的个数, j为词块的序 号,w(ti)为替换句子中
的词块ti所带来的损失, exp(.)为幂指数函数。
4.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法, 其特征在于, 所述
种子集合记为ES=AES ⋃RES⋃EES, 其中AES表示头实体的语义等价对集合, RES表示关系的语
义等价对集合, EES表示尾实体的语义 等价对集合;
所述元规则包括:
第1条规则 R1: 对于三元组
和
, 其中Si_
appx为第i种数据来源编号为 x的移动应用, Si_rx为第i种数据来源编号为 x的移动应用所对
应的关系, Si_ex为第i种数据来源编号为 x的移动应用所对应的尾实体; Sj_appy为第j种数
据来源编号为 y的移动应用; Sj_ry表示第j种数据来源编号为 y的移动应用所对应的关系,
Sj_ey表示为j种数据来源编号 为y的移动应用所对应的尾实体;
如果Si_appx与Sj_appy是头实体的语义 等价对, 表示 为权 利 要 求 书 1/5 页
2
CN 115292520 A
2, Si_ex与Sj_ey是尾实体的语义等价对, 表示为
, 那么Si_rx与Sj_ry是关系的语义等价对
的
置信度为 p; 规则R1表示为:
;
第2条规则 R2: 对于三元 组
和
, 如果
Si_appx与Sj_appy是头实体的语义等价对, 表示为
, 关系Si_rx
与Sj_ry是关系的语义等价对, 表示为
, 那么Si_ex与Sj_ey是尾实体的
语义等价对
的置信度为 q; 规则R2表示为:
;
第3条规则 R3: 对于三元组
和
, 如果Si_rx与
Sj_ry是关系的语义等价对, 表示为:
; Si_ex与Sj_ey是尾实体
的语义等价对, 表示为
, 那么Si_appx与Sj_appy是头实体的语义等价
对,
的置信度为 l; 规则R3表示为:
。
5.根据权利要求4所述的一种面向多源移动应用知识图谱构建方法, 其特征在于, 根据
概率图模型计算潜在的实体或关系的语义等价对成立的概率, 具体公式如下:
;
;
;
其中,Ri= T表示第i条规则满足触发条件, i∈{1,2,3},Ri= F表示第i条规则不满足触
发条件,λ0表示原始语义等价实体对之间的相似度,
表示第Ri条规则成立
的概率, 对应第 i条规则Ri的置信度, Ki表示第i条规则Ri触发的次数,
表权 利 要 求 书 2/5 页
3
CN 115292520 A
3
专利 一种面向多源移动应用知识图谱构建方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:43上传分享