(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211099324.6
(22)申请日 2022.09.08
(71)申请人 中国电子科技 集团公司第十 研究所
地址 610000 四川省成 都市金牛区茶店子
东街48号
(72)发明人 姚章俊 路高勇
(74)专利代理 机构 成都九鼎天元知识产权代理
有限公司 51214
专利代理师 钱成岑
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06N 3/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/02(2006.01)
G06N 5/04(2006.01)
G06N 7/00(2006.01)
G06K 9/62(2022.01)
(54)发明名称
基于Transformer深度强化学习的知识图谱
多跳推理方法
(57)摘要
本发明公开了一种基于Tran sformer深度强
化学习的知识图谱多跳推理方法, 包括以下步
骤: S1、 接入大量RDF三元组, 通过关系补全, 创建
关系完备的知识图谱; S2、 分别对知识图谱的拓
扑结构和三元组语义做表征学习, 并以线性组合
的方式综合拓扑结构和三元 组语义的表征张量,
将知识图谱的表征层映射到统一的知识空间;
S3、 使用基于Tran sformer解码层堆叠的GPT ‑2模
型为知识图谱的推理层建模, 利用集束搜索, 自
回归地生成收益最大的下一时间步动作AT+1。 本
发明规避了传统强化学习中利用人工经验分配
信度, 设计行为策略约束等 不可控的缺陷。
权利要求书4页 说明书9页 附图5页
CN 115455146 A
2022.12.09
CN 115455146 A
1.一种基于Transformer深度强化学习的知识图谱多跳推理方法, 其特征在于, 包括以
下步骤:
S1、 接入大量RDF三元组, 通过关系补全, 创建 关系完备的知识图谱;
S2、 分别对知识图谱的拓扑结构和三元组语义做表征学习, 并以线性组合的方式综合
拓扑结构和三元组语义的表征张量, 将知识图谱的表征层映射到统一的知识空间;
S3、 使用基于Transformer解码层堆叠的GPT ‑2模型为知识图谱的推理层建模, 利用集
束搜索, 自回归地 生成收益 最大的下一时间步动作AT+1, T为时间步计数。
2.根据权利要求1所述的基于Transformer深度强化学习的知识图谱多跳推理方法, 其
特征在于, 所述 步骤S1中创建 关系完备的知识图谱的具体步骤为:
S11、 对于现有知识图谱, 将RDF三元组接入JanusGraph图数据库, 方便后续图谱关系补
全、 查询及读取操作;
其中, 现有知识图谱建模为Φ=(E,Γ,Λ),
表示知识图谱中所有实体的集合,
是知识图谱中所有关系的集合,
是所有事实三元组的集合, 在事
实三元组( εμ,γ, εv)∈Λ中, εμ是事实三元组的头实体, εv是事实三元组的尾实体, γ是事
实三元组从头实体 εμ映射到尾实体 εv的关系;
S12、 在知识图谱现有关系的基础上, 主动补全平等互关系中缺失的关系, 以及有利于
完善计算路径的镜像逆关系, 如( εμ,γ, εv)∈Λ的镜像逆关系三元组为( εμ,γ‑1, εv)∈Λ,
γ‑1为γ的镜像逆关系;
S13、 为每一个顶点增加实体自回环关系, 为每一个顶点的实体增加一个与自身的环路
关系, 即( εμ,γμ μ, εμ)∈Λ, 有利于增加推理智能体的搜索空间, 扩展推理智能体的搜索路
径, 帮助推理智能体的探索能力; γμ μ为知识图谱节点 μ 的自回环关系;
S14、 将新增关系回写到Janus Graph图数据库, 得到关系完备的知识图谱。
3.根据权利要求2所述的基于Transformer深度强化学习的知识图谱多跳推理方法, 其
特征在于, 所述 步骤S2中表征层的映射具体步骤为:
S21、 将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字
内容的语义 三元组, 一次性 导入全部的拓扑 结构图网络和语义 三元组;
S22、 将图网络的拓扑结构送入图卷积网络GCN训练, 学习图网络节点εi的拓扑表征
和边γj的拓扑表征
S23、 将图网络的事实三元组送入ConvE网络训练, 学习图网络节点εi的语义表征
和边γj的语义表征
S24、 将拓扑表征张量和语义表征张量线性连接, 得到节点εi的知识表征
和边γj的知识表征
4.根据权利要求3所述的基于Transformer深度强化学习的知识图谱多跳推理方法, 其
特征在于, 所述 步骤S3中推理层建模的具体步骤为:
S31、 建模基于知识图谱 的多跳推理强化学习环境, 包括状态、 动作、 及时收益、 后续累
积收益和轨 迹;权 利 要 求 书 1/4 页
2
CN 115455146 A
2S32、 使用GPT做序列建模训练, 选择收益 最大化的轨 迹;
S33、 基于集束搜索对轨 迹中的隐藏动作进行搜索, 构成完整的动作序列;
S34、 回溯 动作序列的轨 迹生成可解释推理路径, 呈现支撑结论的解释项。
5.根据权利要求4所述的基于Transformer深度强化学习的知识图谱多跳推理方法, 其
特征在于,
所述步骤S31中的状态
其中εt为时刻t所处的实体节点, εμ σ
和γσ为时刻t=0时所处的起始实体节 点和关系边, εν σ为最终答案节 点, S为状态空间, 初始
状态S0=( εμ σ, εμ σ,γσ, εν σ), 终止状态ST=( εν σ, εμ σ,γσ, εν σ);
所述动作At定义为:
At={( εt,γt, ε )∈Λ|St=( εt, εμ σ,γσ, εν σ),
其中γt为时刻t所处的关系边, ε为知识图谱节点;
所述及时收益Rt即为R(St), 定义为:
R(St)=Ι( εt= εν σ)‑Ι( εt≠ εν σ)
上式中, Ι(·)为二元收益 函数;
所述后续累积收益Gt定义为:
上式中, T为智能体推理结束时间步, K为智能体推理开始时间步, α为及时收益的惩罚
系数;
将轨迹定义为:
上式中, τ 为轨 迹。
6.根据权利要求5所述的基于Transformer深度强化学习的知识图谱多跳推理方法, 其
特征在于, 所述 步骤S32中序列建模训练为:
训练时使用真实轨迹, 直接并行输入轨迹字段, 经过自回归模型和集束搜索输出所有
的预测节点, 每个节点是一个多维向量, 经过softmax归一化处理得到概率分布, 再计算与
之对应的真实标签的交叉熵, 得到对数似然;
最大化对数似然的目标L( τ )是:
对于状态的条件概率Pθ(St|S<t, τ<t), 含义为在给定当前时刻t之前的状态和当前时刻
之前的轨迹 τ 条件下, 发生当前状态St的概率, logPθ(St|S<t, τ<t)为状态的对数条件概率; 对
于动作的条件概率Pθ(At|A<t,St, τ<t), 含义为在给定当前时刻t的状态, 在该状态下时刻t之权 利 要 求 书 2/4 页
3
CN 115455146 A
3
专利 基于Transformer深度强化学习的知识图谱多跳推理方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:53上传分享