专利 基于Transformer深度强化学习的知识图谱多跳推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211099324.6 (22)申请日 2022.09.08 (71)申请人中国电子科技集团公司第十研究所地址 610000 四川省成都市金牛区茶店子东街48号 (72)发明人姚章俊　路高勇　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 专利代理师钱成岑 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) G06N 5/04(2006.01) G06N 7/00(2006.01) G06K 9/62(2022.01) (54)发明名称基于Transformer深度强化学习的知识图谱多跳推理方法 (57)摘要本发明公开了一种基于Tran sformer深度强化学习的知识图谱多跳推理方法，包括以下步骤： S1、接入大量RDF三元组，通过关系补全，创建关系完备的知识图谱； S2、分别对知识图谱的拓扑结构和三元组语义做表征学习，并以线性组合的方式综合拓扑结构和三元组语义的表征张量，将知识图谱的表征层映射到统一的知识空间； S3、使用基于Tran sformer解码层堆叠的GPT ‑2模型为知识图谱的推理层建模，利用集束搜索，自回归地生成收益最大的下一时间步动作AT+1。本发明规避了传统强化学习中利用人工经验分配信度，设计行为策略约束等不可控的缺陷。权利要求书4页说明书9页附图5页 CN 115455146 A 2022.12.09 CN 115455146 A 1.一种基于Transformer深度强化学习的知识图谱多跳推理方法，其特征在于，包括以下步骤： S1、接入大量RDF三元组，通过关系补全，创建关系完备的知识图谱； S2、分别对知识图谱的拓扑结构和三元组语义做表征学习，并以线性组合的方式综合拓扑结构和三元组语义的表征张量，将知识图谱的表征层映射到统一的知识空间； S3、使用基于Transformer解码层堆叠的GPT ‑2模型为知识图谱的推理层建模，利用集束搜索，自回归地生成收益最大的下一时间步动作AT+1， T为时间步计数。 2.根据权利要求1所述的基于Transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤S1中创建关系完备的知识图谱的具体步骤为： S11、对于现有知识图谱，将RDF三元组接入JanusGraph图数据库，方便后续图谱关系补全、查询及读取操作；其中，现有知识图谱建模为Φ＝(E,Γ,Λ)，表示知识图谱中所有实体的集合，是知识图谱中所有关系的集合，是所有事实三元组的集合，在事实三元组( εμ,γ, εv)∈Λ中， εμ是事实三元组的头实体， εv是事实三元组的尾实体， γ是事实三元组从头实体 εμ映射到尾实体 εv的关系； S12、在知识图谱现有关系的基础上，主动补全平等互关系中缺失的关系，以及有利于完善计算路径的镜像逆关系，如( εμ,γ, εv)∈Λ的镜像逆关系三元组为( εμ,γ‑1, εv)∈Λ， γ‑1为γ的镜像逆关系； S13、为每一个顶点增加实体自回环关系，为每一个顶点的实体增加一个与自身的环路关系，即( εμ,γμ μ, εμ)∈Λ，有利于增加推理智能体的搜索空间，扩展推理智能体的搜索路径，帮助推理智能体的探索能力； γμ μ为知识图谱节点 μ 的自回环关系； S14、将新增关系回写到Janus Graph图数据库，得到关系完备的知识图谱。 3.根据权利要求2所述的基于Transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤S2中表征层的映射具体步骤为： S21、将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组，一次性导入全部的拓扑结构图网络和语义三元组； S22、将图网络的拓扑结构送入图卷积网络GCN训练，学习图网络节点εi的拓扑表征和边γj的拓扑表征 S23、将图网络的事实三元组送入ConvE网络训练，学习图网络节点εi的语义表征和边γj的语义表征 S24、将拓扑表征张量和语义表征张量线性连接，得到节点εi的知识表征和边γj的知识表征 4.根据权利要求3所述的基于Transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤S3中推理层建模的具体步骤为： S31、建模基于知识图谱的多跳推理强化学习环境，包括状态、动作、及时收益、后续累积收益和轨迹；权　利　要　求　书 1/4 页 2 CN 115455146 A 2S32、使用GPT做序列建模训练，选择收益最大化的轨迹； S33、基于集束搜索对轨迹中的隐藏动作进行搜索，构成完整的动作序列； S34、回溯动作序列的轨迹生成可解释推理路径，呈现支撑结论的解释项。 5.根据权利要求4所述的基于Transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤S31中的状态其中εt为时刻t所处的实体节点， εμ σ 和γσ为时刻t＝0时所处的起始实体节点和关系边， εν σ为最终答案节点， S为状态空间，初始状态S0＝( εμ σ, εμ σ,γσ, εν σ)，终止状态ST＝( εν σ, εμ σ,γσ, εν σ)；所述动作At定义为： At＝{( εt,γt, ε )∈Λ|St＝( εt, εμ σ,γσ, εν σ)，其中γt为时刻t所处的关系边， ε为知识图谱节点；所述及时收益Rt即为R(St)，定义为： R(St)＝Ι( εt＝ εν σ)‑Ι( εt≠ εν σ) 上式中， Ι(·)为二元收益函数；所述后续累积收益Gt定义为：上式中， T为智能体推理结束时间步， K为智能体推理开始时间步， α为及时收益的惩罚系数；将轨迹定义为：上式中， τ 为轨迹。 6.根据权利要求5所述的基于Transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤S32中序列建模训练为：训练时使用真实轨迹，直接并行输入轨迹字段，经过自回归模型和集束搜索输出所有的预测节点，每个节点是一个多维向量，经过softmax归一化处理得到概率分布，再计算与之对应的真实标签的交叉熵，得到对数似然；最大化对数似然的目标L( τ )是：对于状态的条件概率Pθ(St|S＜t, τ＜t)，含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹 τ 条件下，发生当前状态St的概率， logPθ(St|S＜t, τ＜t)为状态的对数条件概率；对于动作的条件概率Pθ(At|A＜t,St, τ＜t)，含义为在给定当前时刻t的状态，在该状态下时刻t之权　利　要　求　书 2/4 页 3 CN 115455146 A 3

专利 基于Transformer深度强化学习的知识图谱多跳推理方法

专利基于Transformer深度强化学习的知识图谱多跳推理方法