(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210931479.5
(22)申请日 2022.08.04
(71)申请人 中国电子科技 集团公司第二十八研
究所
地址 210046 江苏省南京市栖霞区灵山 南
路1号
(72)发明人 陈华洋 王冠 段然 钱浩煜
刘聪 吴逸汀 邢清雄
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 于瀚文 胡建华
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)
G06N 7/00(2006.01)
G06N 20/00(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于联邦强化学习的卫星资源调度优
化方法
(57)摘要
本发明提供了一种基于联邦强化学习的卫
星资源调度优化方法, 将对地观测卫星资源调度
优化问题抽象为一个离散马尔可夫决策问题, 应
用联邦强化学习算法求解对地观测卫星资源调
度最优解, 本发明利用联邦学习和强化学习技
术, 挖掘对地观测任务与卫星资源之间隐含的内
在关联关系, 充分挖掘各个智能体在训练过程中
各种有关联的特征指标, 形成了高效高质量的全
局调度优化模 型, 最终生 成最优无冲突的对地观
测卫星资源调度优化方案, 且该优化方法有效的
降低了卫星资源调度优化中对调度启发式规则
和人工历史分配经验的依赖, 提高资源调度方法
的有效性和准确性, 可显著提高对地观测卫星资
源调度的智能化管控水平。
权利要求书5页 说明书12页 附图3页
CN 115481779 A
2022.12.16
CN 115481779 A
1.一种基于联邦强化学习的卫星资源调度优化方法, 其特 征在于, 包括以下步骤:
步骤1, 对联邦强化学习算法中的每个智能体建立深度强化学习DQN模型, 设置各智能
体在环境中的状态空间、 智能体可决策的行为空间, 以及环境对智能体的行为奖励;
步骤2, 根据强化学习DQN算法, 为每个智能体建立对应的神经网络, 使用目标神经网络
得到近似值函数;
步骤3, 智能体使用∈ ‑贪心策略, 根据分配的目标和当前自身状态决策下一步采取的
行为, 并与环境进行交互, 得到下一个 自身状态, 将决策经验存储回放记忆单元中, 并且根
据误差函数的梯度更新目标神经网络模型参数;
步骤4, 在循环达到设定的次数后, 将本地的目标神经网络模型参数传给用于参数聚合
的智能体DQ N模型, 智能体DQ N模型记为联合虚拟模型, 进行后续的联邦学习;
步骤5, 对所有智能体上传的参数进行聚合处理, 并将结果返回给各个智能体进行参数
更新, 联合虚拟模型对智能体进行参数聚合, 并返回对应的聚合结果;
步骤6, 各个智能体将收到的聚合结果与目标神经网络模型参数进行软更新, 得到最新
的本地强化学习模型参数;
步骤7, 重复步骤3~步骤6, 直到 完成目标任务, 获得最优的强化学习模型参数;
步骤8, 利用最优的强化学习模型参数构建增强的强化学习模型, 获取最优的卫星资源
调度方案 。
2.根据权利要求1所述的方法, 其特征在于, 步骤5中, 记第i个智能体上传的深度强化
学习DQN模型参数样本为θi, 同时构建一个用于融合学习的深度强化学习DQN模型, 记为联
合虚拟智能体, 联合虚拟智能体的参数样本集合为Θ={θi},1≤i≤N, 通过计算平均值得
到样本的中心点θavg:
θavg即为联合虚拟模型返回的聚合结果。
3.根据权利要求2所述的方法, 其特征在于, 步骤6 中, 智能体在收到联合虚拟模型返回
的聚合结果θavg后, 以软更新的方式进行本地的深度强化学习DQN模型更新, 即以比重τ将
θavg加入模型参数样本θi中, 则更新完后深度强化学习DQ N模型的神经网络参数θi′为:
θi′=(1‑τ )θi+τ·θavg
至此完成一次联邦学习过程, 其 中τ∈[0,1], 当τ为0时, 表示不将更新参数, θavg不融入
本地的深度 强化学习DQN模型, 当τ为1时, 表示本地的深度 强化学习DQN模型直接复制更新
参数θavg;
联合虚拟智能体更新 参数的公式为:
其中, θt(v)为联合虚拟智能体深度强化学习DQN模型的神经网络参数, θt(i)为t时刻第i
个智能体深度强化学习 DQN模型的神经网络训练参数, vt(v)为第v个联合虚拟智能体深度强
化学习DQN模型的参数变 化值, lt为学习率, Nt为t时刻活动智能体数, Loss(.)为损失函数, ρ权 利 要 求 书 1/5 页
2
CN 115481779 A
2为系统权 重。
4.根据权利要求3所述的方法, 其特征在于, 步骤8中, 将卫星资源调度优化问题用马尔
可夫决策过程进行建模, 构成马尔可夫决策过程的三要素分别为环境状态s、 决策动作a和
奖励回报r;
决策过程是基于当前状态依据策略选择相应的行动进行决策, 获取相应的决策回报,
用Q值函数描述整个马尔可 夫决策过程的期望奖励回报;
利用强化学习优化求解马尔可夫决策过程中, 智能体在环境状态s下, 依据策略选择相
应决策动作a, 决策动作a作用于智能体交互的外部环境, 从而使环境状态s发生相应的变
化, 由此得到相应的奖励回报r, 目标 是基于交 互过程获得 奖励回报最优的策略;
将卫星资源调度优化问题用马尔可夫 决策过程进行建模, 是利用随机过程形式化描述
对地观测 卫星资源调度应用场景, 提炼出马尔可夫决策过程的三要素, 从而转化为能够用
强化学习描述并求 解的资源调度优化模型;
将包括外 部环境状态、 决策动作和奖励回报评价指标在内的模型抽象, 具体如下:
将对地观测任务中各个卫星资源以及观测任务的状态集合抽象为马尔可夫决策过程
的状态, 记为环境状态; 将卫星资源决策动作变量抽象为马尔可夫决策过程的动作, 记为决
策动作, 将卫星资源调度性能评价指标作为马尔可 夫决策过程中的决策回报。
5.根据权利要求4所述的方法, 其特征在于, 步骤8中, 对地观测卫星资源调度的环境状
态是对地观测卫星资源调试应用场景的描述, 包括对地观测卫星资源的属性特点和观测任
务特性的描述, 整个环境状态包括观测状态和任务状态;
当卫星观测资源的一个空闲时间窗口对一个任务可见、 可用时, 对应观测状态矩阵位
置的状态设置为1, 否则设置为0;
对每个时间窗的不同卫星资源, 根据卫星资源在当前时间窗内是否能满足观测要求用
数字0或1来进行 标注, 确定各类卫星观测资源在各个时间窗内相对于观测任务是否空 闲;
用0‑1矩阵来表示给定卫星资源调度场景中卫星观测资源的状态矩阵, 由此确定每一
时刻的卫星观测资源相对于观测任务的可用情况, 从而确定观测状态矩阵, 构建出卫星资
源在时间维度上的状态;
将同一个时间窗口内的观测状态矩阵和任务状态矩阵整合形成当前时间窗口内对地
观测卫星资源调度的环境状态, 设计出的环境状态 矩阵S[TaskS,TaskE]为如下形式:
其中, TaskS, TaskE分别表示当前时间窗口的起始时间和终止时间, 环境状态矩阵
S[TaskS,TaskE]第一列为各个任务的序号。
6.根据权利要求5所述的方法, 其特征在于, 步骤8中, 对于决策动作: 将对地卫星观测
任务调度问题用一个五元组<E,S,T,C,F >描述, 其中, E是观测周期,
为观测
卫星集合,
表示第NS个观测卫星,
是观测任务集合,
表示第NT个观测
任务, C是 各个约束条件集 合, F是目标函数;权 利 要 求 书 2/5 页
3
CN 115481779 A
3
专利 一种基于联邦强化学习的卫星资源调度优化方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:00:59上传分享