专利 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211000653.0 (22)申请日 2022.08.19 (71)申请人西北工业大学地址 710072 陕西省西安市碑林区友谊西路127号 (72)发明人赵力冉　党朝辉　唐生勇　卫国宁　许旭升　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 专利代理师朱海临 (51)Int.Cl. B64G 1/24(2006.01) G06F 17/16(2006.01) G06F 30/20(2020.01) G06N 20/00(2019.01) (54)发明名称一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法 (57)摘要本发明涉及航空航天技术领域，特别是涉及在空间轨道博弈的应用，公开了一种基于PRD ‑ MADDPG算法的脉冲式轨道追逃博弈方法，通过脉冲式轨道追逃博弈问题建模，并针对脉冲式轨道追逃博弈中双方航天器的任务目标，设计脉冲式轨道追逃博弈双方的奖励函数，基于所设计的博弈模型和奖励函数，设计预测奖励检测训练框架，基于所设计的预测奖励检测训练框架，结合 MADDPG算法完成追逃博弈智能控制策略网络训练，航天器利用训练好的策略网络，根据自身对环境的观测信息输出控制指令，实现航天器脉冲式轨道追逃博弈的智能控制。权利要求书2页说明书10页附图5页 CN 115320890 A 2022.11.11 CN 115320890 A 1.一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，包括如下步骤： S1、对脉冲式轨道追逃博弈问题建模得到博弈模型，并根据脉冲式轨道追逃博弈中双方航天器的任务目标得到脉冲式轨道追逃博弈双方奖励函数； S2、根据博弈模型和脉冲式轨道追逃博弈双方奖励函数设计得到预测奖励检测训练框架； S3、将预测奖励检测训练框架结合MAD DPG算法训练追逃博弈智能控制策略网络； S4、追逃博弈智能控制策略网络接收航天器自身对环境的观测信息并输出控制指令，完成航天器脉冲式轨道追逃博弈控制。 2.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，脉冲式轨道追逃博弈问题建模的过程如下：设计脉冲式轨道追逃博弈场景，并根据航天器间的相对距离相对于轨道半径选择两个航天器附近的圆轨道作为参考轨道，进行CW方程计算。 3.根据权利要求2所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，在CW方程下建立航天器脉冲式轨道机动模型， CW方程计算公式如下： φ(t,t0)＝[φ1(Δt)φ2(Δt)]； φv(t,ti)＝φ2(t‑ti)＝φ2(Δt)； Δvi＝[Δvi,xΔvi,yΔvi,z]T；其中， φ(t,t0)为根据C ‑W方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵； Δ vi表示航天器i的速度增量向量； φv(t,ti)表示从ti时刻到t时刻航天器速度增量部分的状态转移矩阵； N表示航天器总的脉冲机动次数； φ1(Δt)表示； φ2(Δt)表示； Δvi,x表示航天器i在x方向的速度增量； Δvi,y表示航天器i在y方向的速度增量； Δvi,z表示航天器i在z方向的速度增量； μ为引力常数， a为参考轨道的轨道半径； Δt表示脉冲之间的时间间隔。 4.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，脉冲式轨道追逃博弈双方奖励包括距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项。 5.根据权利要求4所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特权　利　要　求　书 1/2 页 2 CN 115320890 A 2征在于，脉冲式轨道追逃博弈双方奖励函数为距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项的加权和。 6.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，预测奖励检测训练框架流程如下： S2.1、在ti时刻，双方航天器分别根据环境反馈的状态信息，基于自身当前的策略网络 Actor进行决策，输出航天器所采取的脉冲控制，并将施加脉冲控制前的追逃双方航天器的状态改变为施加脉冲控制后追逃双方航天器的状态； S2.2、定义脉冲控制施加的时刻ti为决策点，两个决策点ti到ti+1之间每隔ΔTd时刻设立一个检测点，共设置σ 个检测点，定义为决策点[ti,ti+1]之间第m个检测点，则m∈[1, 2…, σ ]， σ 的大小根据自然转移时间的长短、航天器的机动能力强弱、轨道转移范围的大小进行设计； S2.3、根据CW方程，通过ti时刻下施加脉冲控制前后的追逃双方航天器的状态，计算得到ti时刻决策点后第m个检测点的状态和 S2.4、根据脉冲式轨道追逃博弈双方奖励函数结合预测检测点的状态计算在检测点的即时奖励，并计算双方航天器的累计预测奖励； S2.5、根据预测检测点的状态判断追逃任务是否终止，若追逃任务终止则直接将当前环境信息、双方的累计预测奖励和任务终止信号存入经验池，该次任务过程结束；若追逃任务没有终止，则判断该检测点是否为最后一个检测点，若该检测点是最后一个检测点，则将当前环境信息、双方的累计预测奖励与任务继续的信号传递给各航天器的策略网络进行下一次决策，若该检测点不是最后一个检测点，则进入下一个检测点，重复执行S2.3至S2.5。 7.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，追逃博弈智能控制策略网络的训练过程如下： S3.1，初始化追逃双方航天器的策略网络Actor与评价网咯Critic网络的参数与航天器的状态空间； S3.2，双方航天器按照所设计的预测检测奖励训练框架，根据自身的观测信息采取动作，与环境模型交互，获得奖励、动作、下一时刻状态空间的训练数据，存入回放经验池； S3.3，按照MAD DPG的方法更新策略网络Actor和评价网络 Critic的参数； S3.4，当回报奖励长期维持在一定范围内不再上升时，停止更新，训练完成。 8.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法，其特征在于，通过追逃博弈智能控制策略网络的训练得到追逃双方航天器的各自的策略网络 Actor，航天器以自身对环境的观测信息作为策略网络Actor的输入，输出为航天器所要采取的控制指令。权　利　要　求　书 2/2 页 3 CN 115320890 A 3

专利 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法

专利一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法