专利 一种基于分层强化学习的雷达认知对抗方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211056596.8 (22)申请日 2022.08.31 (71)申请人中国船舶集团有限公司第七二三研究所地址 225001 江苏省扬州市广陵区南河下 26号 (72)发明人童真　 (74)专利代理机构南京理工大学专利中心 32203 专利代理师薛云燕 (51)Int.Cl. G01S 7/36(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于分层强化学习的雷达认知对抗方法 (57)摘要本发明公开了一种基于分层强化学习的雷达认知对抗方法，该方法为：首先将雷达认知对抗过程划分为上层宏观任务，确定雷达认知对抗过程中各宏观任务之间的连接关系，并关联雷达认知对抗过程中各任务相关的状态集合和其对应的动作集合；然后将雷达认知对抗过程进行任务分解，得到动作价值函数、状态价值函数、完成函数；接着进行雷达认知对抗的策略迭代，得到当前状态的最优对抗策略；再进行雷达认知对抗的策略搜索，更新状态价值函数和完成函数，得到当前最优的动作价值函数；重复进行策略迭代和策略搜索，直到雷达认知对抗策略趋于收敛。本发明降低了雷达认知对抗策略生成的复杂度，提升了策略学习的效率。权利要求书3页说明书5页附图2页 CN 115327489 A 2022.11.11 CN 115327489 A 1.一种基于分层强化学习的雷达认知对抗方法，其特征在于，包括以下步骤：步骤1、将雷达认知对抗过程划分为上层宏观任务，确定雷达认知对抗过程中各宏观任务之间的连接关系；步骤2、构建雷达认知对抗过程中的状态动作转移关系，关联雷达认知对抗过程中各任务相关的状态集合和对应的动作集合；步骤3、通过贝尔曼方程将雷达认知对抗过程进行任务分解，得到动作价值函数、状态价值函数、完成函数；步骤4、采用 ε ‑greedy的方式进行雷达认知对抗的策略迭代，依概率ε进行随机策略探索，依概率1‑ε根据动作价值函数，得到当前状态的最优对抗策略；步骤5、通过深度优先搜索，进行雷达认知对抗的策略搜索，更新状态价值函数和完成函数，得到当前最优的动作价值函数；步骤6、重复步骤4～步骤5，直到雷达认知对抗策略趋于收敛。 2.根据权利要求1所述的基于分层强化学习的雷达认知对抗方法，其特征在于，步骤1 所述的将雷达认知对抗过程划分为上层宏观任务，确定雷达认知对抗过程中各宏观任务之间的连接关系，具体如下：将雷达认知对抗过程的总体任务M0划分为上层宏观任务{M1， M2， ...， Mi}，确定雷达认知对抗过程中各宏观任务Mi之间的连接关系。 3.根据权利要求2所述的基于分层强化学习的雷达认知对抗方法，其特征在于，所述将雷达认知对抗过程的总体任务M0划分为上层宏观任务{M1， M2， ...， Mi}，确定雷达认知对抗过程中各宏观任务Mi之间的连接关系，具体如下：步骤1.1、自顶向下进行雷达认知对抗过程的多层次任务划分，将雷达认知对抗的总体任务M0分解为态势感知任务M1、干扰决策任务M2、效能评估任务M3三个上层任务；步骤1.2、将态势感知任务M1向下划分为包含信号处理基础操作的态势感知具体任务；步骤1.3、将干扰决策任务M2向下划分为干扰策略推理任务M4、干扰资源调度任务M5和干扰实施任务M6三个子任务，然后将干扰策略推理任务M4向下分解为策略推理的基本动作，干扰资源调度任务M5向下分解为资源调度的基本动作，干扰实施任务M6 向下分解为干扰实施的基本动作；步骤1.4、将干扰效能评估任务M3向下划分为干扰效果评估的具体任务。 4.根据权利要求3所述的基于分层强化学习的雷达认知对抗方法，其特征在于，步骤2 所述的关联雷达认知对抗过程中各任务相关的状态集合和对应的动作集合，具体如下：构建雷达认知对抗过程中的状态动作转移关系，关联雷达认知对抗过程中各任务Mi相关的状态集合{sij|sij∈Si}和对应的动作集合{aij|aij∈Ai}。 5.根据权利要求4所述的基于分层强化学习的雷达认知对抗方法，其特征在于，所述构建雷达认知对抗过程中的状态动作转移关系，关联雷达认知对抗过程中各任务Mi相关的状态集合{sij|sij∈Si}和对应的动作集合{aij|aij∈Ai}，具体如下：步骤2.1、设定状态s0、 s1表示目标雷达处于的初始感知状态，包含的感知动作为a0、 a1、 a2；权　利　要　求　书 1/3 页 2 CN 115327489 A 2步骤2.2、设定状态s2表示干扰策略推理任务M4的任务阶段，包含动作a3、 a4、 a5，通过a3 与a4干扰策略推理任务M4可能折返到初始感知状态，通过a5干扰策略推理任务M4则会进入干扰资源调度任务M5；设定状态s3处于干扰资源调度任务M5的状态，包含动作a6与a7，直至干扰资源分配成功进入干扰实施任务M6；状态s0～s3表示干扰实施前的本方内部状态；设定状态s4～s7表示干扰实施任务M6的状态，对应的动作为a8～a15；步骤2.3、设定状态s8表示干扰效能评估任务M3的状态，对应的评估动作为a16，最终进入终止状态，从而完成一轮认知对抗。 6.根据权利要求5所述的基于分层强化学习的雷达认知对抗方法，其特征在于，步骤3 所述的通过贝尔曼方程将雷达认知对抗过程进行任务分解，得到动作价值函数、状态价值函数、完成函数，具体如下：通过贝尔曼Bellman方程将对抗过程进行任务分解，得到动作价值函数Qπ(i， s， a)、状态价值函数Vπ(i， s)、完成函数Cπ(i， s， a)，认知雷达对抗过程中状态与任务之间的联系如下： Qπ(i， s， a)＝Vπ(s， a)+Cπ(i， s， a) 其中状态价值函数Vπ(i， s)表示在状态s下完成任务i的期望收益；动作价值函数Qπ(i， s， a)表示在任务i中状态s下执行子任务a获得的期望收益；完成函数Cπ(i， s， a)表示在子任务a完成后，继续完成上级任务 i获得的期望收益。 7.根据权利要求6所述的基于分层强化学习的雷达认知对抗方法，其特征在于，步骤4 所述采用 ε ‑greedy的方式进行雷达认知对抗的策略迭代，依概率 ε进行随机策略探索，依概率1‑ε根据动作价值函数，得到当前状态的最优对抗策略，具体如下：采用 ε‑greedy的方式进行认知对抗的策略迭代，依概率ε进行随机策略探索，依概率1 ‑ ε根据动作价值函数argmaxaQ(i， s， a)，得到当前状态s的最优对抗策略π*(i， s)：情形1：依概率 ε进行随机策略选择，防止策略陷入到局部最优值中；情形2：依概率1 ‑ε根据动作价值函数Qπ(i， s， a)，按照 π*(i， s)＝argmaxaQ(i， s， a)，执行任务动作a。 8.根据权利要求7所述的基于分层强化学习的雷达认知对抗方法，其特征在于，步骤5 所述的通过深度优先搜索，进行雷达认知对抗的策略搜索，更新状态价值函数和完成函数，得到当前最优的动作价值函数，具体如下：通过深度优先搜索，进行雷达认知对抗过程的策略搜索，更新状态价值函数Vπ(i， s)与完成函数Cπ(i， s， a)，得到当前最优的动作价值函数Qπ(i， s， a)，具体为：情形1：当策略任务i为最底层不可分割的基础操作时将直接执行，依据如下方法更新任务的状态价值函数： Vt+1(i， s)＝(1 ‑αi)·Vt(i， s)+αi·rt 其中αi表示i任务的学习速率， rt是动作执行的直接奖励值；情形2：当策略任务i是上层组合任务时，将沿着各层最优子任务a安排的路径进行策略的深度搜索，按照如下方法更新策略搜索路径中的完成价值函数： Ct+1(i， s， a)＝(1 ‑αi)·Ct(i， s， a)+αi·γN·Vt(i， s′) 其中γ是奖励折扣因子， N是当前任务的层级深度。 9.根据权利要求8所述的基于分层强化学习的雷达认知对抗方法，其特征在于，步骤6 所述的重复步骤4～步骤5，直到雷达认知对抗策略趋于收敛，具体如下：权　利　要　求　书 2/3 页 3 CN 115327489 A 3

专利 一种基于分层强化学习的雷达认知对抗方法

专利一种基于分层强化学习的雷达认知对抗方法