iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211000653.0 (22)申请日 2022.08.19 (71)申请人 西北工业大 学 地址 710072 陕西省西安市碑林区友谊西 路127号 (72)发明人 赵力冉 党朝辉 唐生勇 卫国宁  许旭升  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 朱海临 (51)Int.Cl. B64G 1/24(2006.01) G06F 17/16(2006.01) G06F 30/20(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于PRD-MADDPG算法的脉冲式轨道追 逃博弈方法 (57)摘要 本发明涉及航空航天技术领域, 特别是涉及 在空间轨道博弈的应用, 公开了一种基于PRD ‑ MADDPG算法的脉冲式轨道追逃博弈方法, 通过脉 冲式轨道追 逃博弈问题建模, 并针对 脉冲式轨道 追逃博弈中双方航天器的任务目标, 设计脉冲式 轨道追逃博弈双方的奖励函数, 基于所设计的博 弈模型和奖励函数, 设计预测奖励检测训练框 架, 基于所设计的预测奖励检测训练框架, 结合 MADDPG算法完成追逃博弈智能控制策略网络训 练, 航天器利用训练好的策略网络, 根据自身对 环境的观测 信息输出控制指令, 实现航天器脉冲 式轨道追逃博弈的智能控制。 权利要求书2页 说明书10页 附图5页 CN 115320890 A 2022.11.11 CN 115320890 A 1.一种基于PRD ‑MADDPG算法的脉冲式轨道追逃 博弈方法, 其特 征在于, 包括如下步骤: S1、 对脉冲式轨道追逃博弈问题建模得到博弈模型, 并根据脉冲式轨道追逃博弈中双 方航天器的任务目标 得到脉冲式轨道追逃 博弈双方奖励函数; S2、 根据博弈模型和脉冲式轨道追逃博弈双方奖励函数设计得到预测奖励检测训练框 架; S3、 将预测奖励检测训练框架结合MAD DPG算法训练追逃 博弈智能控制策略网络; S4、 追逃博弈智能控制策略网络接收航天器自身对环境的观测信息并输出控制指令, 完成航天器脉冲式轨道追逃 博弈控制。 2.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特 征在于, 脉冲式轨道追逃 博弈问题建模的过程如下: 设计脉冲式轨道追逃博弈场景, 并根据航天器间的相对距离相对于轨道半径选择两个 航天器附近的圆轨道作为 参考轨道, 进行CW方程计算。 3.根据权利要求2所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特 征在于, 在CW方程下建立 航天器脉冲式轨道机动模型, CW方程计算公式如下: φ(t,t0)=[φ1(Δt)φ2(Δt)]; φv(t,ti)=φ2(t‑ti)=φ2(Δt); Δvi=[Δvi,xΔvi,yΔvi,z]T; 其中, φ(t,t0)为根据C ‑W方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵; Δ vi表示航天器i的速度增量向量; φv(t,ti)表示从ti时刻到t时刻航天器速度增量部分的状 态转移矩阵; N表示航天器总的脉冲机动次数; φ1(Δt)表示; φ2(Δt)表示; Δvi,x表示航天 器i在x方 向的速度增量; Δvi,y表示航天器i在y方 向的速度增量; Δvi,z表示航天器i在z方 向的速度增量; μ为引力常数, a为参考轨道的轨道半径; Δt表示脉冲 之间的时间 间隔。 4.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特 征在于, 脉冲式轨道追逃博弈双方奖励 包括距离引导项 奖励、 时间奖励项、 燃料消耗奖励项 和结果奖励项。 5.根据权利要求4所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特权 利 要 求 书 1/2 页 2 CN 115320890 A 2征在于, 脉冲式轨道追逃博弈双方奖励函数为距离引导项奖励、 时间奖励 项、 燃料消耗奖励 项和结果奖励项的加权和。 6.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特 征在于, 预测奖励检测训练框架流 程如下: S2.1、 在ti时刻, 双方航天器分别根据环境反馈的状态信息, 基于自身当前的策略网络 Actor进行决策, 输出航天器所采 取的脉冲控制, 并将施加脉冲控制前的追逃双方航 天器的 状态改变为施加脉冲控制后追逃双方航天器的状态; S2.2、 定义脉冲控制施加的时刻ti为决策点, 两个决策点ti到ti+1之间每隔ΔTd时刻设 立一个检测点, 共设置σ 个检测点, 定义 为决策点[ti,ti+1]之间第m个检测点, 则m∈[1, 2…, σ ], σ 的大小根据自然转移时间的长短、 航天器的机动能力强弱、 轨道转移范围的大小 进行设计; S2.3、 根据CW方程, 通过ti时刻下施加脉冲控制前后的追逃双方航天器的状态, 计算得 到ti时刻决策点后第m个 检测点 的状态 和 S2.4、 根据脉冲式轨道追逃博弈双方奖励函数结合预测检测点的状态计算在检测点的 即时奖励, 并计算双方航天器的累计预测奖励; S2.5、 根据预测检测点的状态判断追逃任务是否终止, 若追逃任务终止则直接将当前 环境信息、 双方的累计预测奖励和任务终止信号存入经验池, 该次任务过程结束; 若追逃任 务没有终止, 则判断该检测点是否为最后一个检测点, 若该检测点是最后一个检测点, 则将 当前环境信息、 双方的累计预测奖励与任务 继续的信号传递给各航 天器的策略网络进 行下 一次决策, 若该检测点 不是最后一个 检测点, 则进入下一个 检测点, 重复执 行S2.3至S2.5。 7.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特 征在于, 追逃 博弈智能控制策略网络的训练过程如下: S3.1, 初始化追逃双方航天器 的策略网络Actor与评价网咯Critic网络的参数与航天 器的状态空间; S3.2, 双方航天器按照所设计的预测检测奖励训练框架, 根据自身的观测信息采取动 作, 与环境模型交 互, 获得奖励、 动作、 下一时刻状态空间的训练数据, 存 入回放经验 池; S3.3, 按照MAD DPG的方法更新策略网络Actor和评价网络 Critic的参数; S3.4, 当回报奖励长期维持在一定范围内不再 上升时, 停止更新, 训练完成。 8.根据权利要求1所述的一种基于PRD ‑MADDPG算法的脉冲式轨道追逃博弈方法, 其特 征在于, 通过追逃博弈智能控制策略网络的训练得到追逃双方航天器的各自的策略网络 Actor, 航天器以自身对环境的观测信息作为策略网络Actor的输入, 输出为航天器所要采 取的控制指令 。权 利 要 求 书 2/2 页 3 CN 115320890 A 3

.PDF文档 专利 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法 第 1 页 专利 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法 第 2 页 专利 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:00:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。