(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211121831.5
(22)申请日 2022.09.15
(71)申请人 中国科学技术大学
地址 230041 安徽省合肥市金寨路96号
(72)发明人 阚震 孟韶峰 李智军
(74)专利代理 机构 上海段和段律师事务所
31334
专利代理师 梁勤伟
(51)Int.Cl.
G05B 13/04(2006.01)
G06N 20/00(2019.01)
(54)发明名称
基于深度强化学习的多智能体动态覆盖控
制方法及系统
(57)摘要
本发明提供了一种基于深度强化学习的多
智能体动态覆盖控制方法及系统, 用于训练智能
体自主学习有效的动态覆盖策略, 解决了以往的
大部分工作都高度依赖于系统模 型的问题。 本发
明提出了一个基于多智能体深度强化学习的控
制框架, 使智能体能够直接从与环 境的交互中学
习控制策略, 从而在保持智能体组网络连接性的
同时实现动态覆盖控制。 所提出的方法是无模型
的, 采用集中训练、 分散执行的框架, 其中智能体
在执行阶段只使用本地信息进行协调, 而不需要
知道其他智能体的策略。 为了 保证智能体网络的
连接性, 选择代数连通性作为优化目标, 确保底
层通信网络始终保持连接 。
权利要求书4页 说明书11页 附图1页
CN 115327926 A
2022.11.11
CN 115327926 A
1.一种基于深度强化学习的多智能体动态 覆盖控制方法, 其特 征在于, 包括以下步骤:
步骤S1: 基于改进MADDPG对智能体的动态覆盖控制问题进行建模, 确定完成动态覆盖
控制任务的指标, 为多智能体系统建立拓扑图, 确定其代数 连通性的表达式;
步骤S2: 通过步骤S1中所建模型, 将动态覆盖控制任务建模为部分可观测的马尔可夫
过程, 为深度强化学习方法设计 状态空间、 动作空间及奖励函数;
步骤S3: 利用步骤S2中所涉及的状态空间、 动作空间及奖励函数, 并调整强化学习算法
中的超参数, 训练得到目标 策略网络 。
2.根据权利要求1所述的基于深度强化学习的多智能体动态覆盖控制方法, 其特征在
于: 所述步骤S1 中改进MADDPG算法的具体做法为: 在训练环 境中加入虚拟边界, 该边界数倍
大于待覆盖区域, 当智能体远离目标区域并到达虚拟边界, 立即重置该训练 回合, 并将该回
合的经验值从体验重放缓冲区
中删除。
3.根据权利要求1所述的基于深度强化学习的多智能体动态覆盖控制方法, 其特征在
于: 所述步骤S1中智能体的覆盖模型由待覆盖目标点与智能体位置之间的几何关系来衡
量, 具体表示 为:
其中
表示在t时刻智能体i与待覆盖目标点j之间的二维空间距
离, Mp∈R+为常数, 代 表了峰值覆盖强度, 常数r为智能体的覆盖范围;
智能体i对待覆盖目标点j在时间t内所施加的有效累计覆盖值 为:
对于一个存在M个待覆盖目标的二维待覆盖空间, 由N个智能体组成一个智能体系统
将所有智能体对待覆盖目标点j的累积覆盖值加和, 得出整个智能体组对待覆盖目标
点j的累积覆盖:
将动态覆盖控制的任务描述为: 智能体在不断的移动中, 完成对目标区域内所有待覆
盖目标点的覆盖任务, 也即使得 所有待覆盖目标点的累计覆盖值达 到期望值
智能体之间的通信由一个无向图
建模, 其中
ε分别表 示智能体集合和通信
链路集合;
智能体具有有限的通信能力, 表示为一个半径为R的圆形区域, 智能体们只能在该距离
内交换信息, 即Rij=||xi‑xj||≤R; 无向图
对应一个邻接矩阵A∈RN×N, Aij=1当节点i和j
之间存在边, 反之Aij=0; 无向图
的度矩阵表示为
无向图
的拓扑结
构用图的拉普拉斯矩阵
表示, 且
4.根据权利要求1所述的基于深度强化学习的多智能体动态覆盖控制方法, 其特征在
于: 所述步骤S2中动态 覆盖控制任务 通过POMD P建模如下:权 利 要 求 书 1/4 页
2
CN 115327926 A
2观测空间
及状态空间S: 观测空间设置为t时刻智能体在覆盖空间内的二维坐标, 即
其中i=1,2, …,N, t=1,2, …,T; 状态空间S在观测空间的基础上
增加所有待覆盖目标点在t时刻所达 到的覆盖能量,
动作空间
设每个智能体每一 次可以选择一个方向, 并在该方向上移动 一定的距离;
从而智能体i的动作空间由一个方向角
及该方向上的一个距离
组成, 即
奖励函数: 奖励函数分为动态 覆盖任务奖励 及连接性 惩罚两部分;
动态覆盖任务奖励: 当智能体组完成了针对待覆盖目标点j的覆盖任务, 获得这一奖
励, 具体形式为:
其中c*为一个正的常数;
连接性惩罚: 当智能体组失去网络连接性, 受到一个值 为负的惩罚函数, 具体形式为:
其中p*为一个负的常数;
构建整个任务的奖励函数:
5.根据权利要求1所述的基于深度强化学习的多智能体动态覆盖控制方法, 其特征在
于: 所述步骤S3中基于深度强化学习的多智能体覆盖控制算法采用集中训练、 分散执行 的
框架, 在集中训练时包 含了其他智能体策略的信息, 所训练的动作价 值函数
用下式更新:
其中,
其中
是目标策略的集合, 在执行阶段, 智能体只根据它们对环境的局
部观察来学习策略, 其策略梯度可以表示 为:
其中
存放了所有智能体的经验。
6.一种基于深度强化学习的多智能体动态 覆盖控制系统, 其特 征在于, 包括以下模块:
模块M1: 基于改进MADDPG对智能体的动态覆盖控制问题进行建模, 确定完成动态覆盖
控制任务的指标, 为多智能体系统建立拓扑图, 确定其代数 连通性的表达式;
模块M2: 将动态覆盖控制任务建模为部分可观测的马尔可夫过程, 为深度强化学习方
法设计状态空间、 动作空间及奖励函数;
模块M3: 利用状态空间、 动作空间及奖励函数, 并调整强化学习算法中的超参数, 训练
得到目标 策略网络 。权 利 要 求 书 2/4 页
3
CN 115327926 A
3
专利 基于深度强化学习的多智能体动态覆盖控制方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:13:06上传分享