专利 一种基于环境驱动的主从水面机器人回收导引方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211037272.X (22)申请日 2022.08.26 (71)申请人齐齐哈尔大学地址 161006 黑龙江省齐齐哈尔市建华区文化大街 42号 (72)发明人郝冰　赵建烁　王琪　杜鹤　董凡　赵硕　 (74)专利代理机构哈尔滨市文洋专利代理事务所(普通合伙) 23210 专利代理师王艳萍 (51)Int.Cl. G05D 1/02(2020.01) G06N 20/00(2019.01) G06Q 10/04(2012.01) (54)发明名称一种基于环境驱动的主从水面机器人回收导引方法 (57)摘要本发明公开了一种基于环境驱动的主从水面机器人回收导引方法，包括以下步骤：步骤一，对主、从水面机器人及运动母船的回收环境进行建模；步骤二，对回收导引算法进行建模；步骤三，利用基于环境驱动的Q学习算法生成最短安全导引路径；本发明通过将多水面机器人间的动作影响纳入规划方案，解决了路径冲突问题，减少算法的迭代次数；通过对导引路径进行划分，并对其采用不同的探索因子，提高了导引路径的生成效率；通过采用基于环境驱动的奖励函数，提高了多水面机器人的回收效率；本发明增强了多机器人导航控制系统的安全性、鲁棒性和对复杂动态环境的适应性，导引的路径长度、转弯角度和计算时间有了明显提高。权利要求书5页说明书11页附图6页 CN 115328143 A 2022.11.11 CN 115328143 A 1.一种基于环境驱动的主从水面机器人回收导引方法，包括以下步骤：步骤一，对主、从水面机器人及运动母船的回收环境进行建模；步骤二，对回收导引算法进行建模；步骤三，利用基于环境驱动的Q学习算法生成最短安全导引路径；其特征在于：其中在上述步骤一中，具体包括以下步骤： 1.1回收范围建模：定义主、从水面机器人定义为半径为r的圆，回收任务起始状态下的主、从水面机器人和回收母船的重心位置坐标分别为(xM,yM)， (xS,yS)和(XM,YM)；主、从水面机器人和回收母船的重心位置之间的横向距离和纵向距离分别为L＝||XM‑xM||(或L＝|| XM‑xS||)和D＝| |YM‑yM||(或D＝| |YM‑yS||)； 1.2回归阶段的静态栅格建模：将两边长为L和D的回收环境划分为 m行n列边长为的d1正方形栅格 m * n 个，不满一个栅格的采取向上取整的方法，其中 d1＝ 4 r ， 1.3回收阶段的随动栅格建模：定义回收母船为径向长度为Len的椭圆， t时刻下，以运动母船的重心(X(t)M,Y(t)M)为中心点，时时选取边长为H的正方形范围，其中H＝(VM(t)/ d2)*Len，将该动态正方形范围划分成边长为的d2正方形栅格p*p个，不满一个栅格的采取向上取整的方法，其中VM(t)为当前运动母船的速度， d2＝2r， 1.4定义水面机器人的坐标：将主、从水面机器人在静态栅格环境中的坐标随时间变化定义为St＝(xi(t),yj(t)),0≤i≤m,0≤j≤n， st＝(xi(t),yj(t)),0≤i≤m,0≤j≤n；在随动栅格环境中的坐标随时间变化定义为St＝(x′u(t),y′w(t)),0＜u≤p,0＜w≤p， st＝(x′u (t),y′w(t)),0＜u≤p,0＜w≤p；定义运动母船的起始坐标： St＝(X0(t),Y0(t))； 1.5障碍物建模：将主、从水面机器人可行区域视为白色栅格，将障碍物占据的区域视为黑色栅格，障碍物占据的区域是先将检测得到的障碍物边线坐标{(xob1,yob1),(xob2, yob2)...}依据主、从水面机器人的航行速度进行膨胀化处理得到的新的边界所占据的栅格 {(x′ob1,y′ob1) ,(x′ob2,y′ob2) ...}，不满一个栅格的采取向上取整的方法，其中， d2＝2r， v为主、从水面机器人航行速度；其中在上述步骤二中，具体包括以下步骤： 2.1主从水面机器人动作空间的设计： 2.1.1定义主水面机器人总的动作空间为： A＝{a1,a2,a3,a4,a5,a6,a7,a8}，其中a1为向上移动dm， a2为向右上移动 a3为向右移动dm， a4为向右下移动 a5为向下移动dm， a6为向左下移动 a7为向左移动dm， a8为向左上移动 2.1.2定义从水面机器人总的动作空间为： B＝{B0,B1}， B0＝{b1,b2,b3,b4,b5,b6,b7,b8} 为单步动作子空间， B1＝{C,D,E,F}为连续动作子空间，其中b1为向上移动dm， b2为向右上移动 b3为向右移动dm， b4为向右下移动 b5为向下移动dm， b6为向左下移动 b7为向左移动dm， b8为向左上移动 C＝{b1,b7}为左上连续运动的子动作空间， D＝{b5,b7}为向左下连续运动的子动作空间， E＝{b1,b3}为向右上连续运动的子动作空间， F＝{b3,b5}向右下连续运动的子动作空间；在算法中，连续运动子动作空间中的两个单权　利　要　求　书 1/5 页 2 CN 115328143 A 2步动作是默认连续执行，中间不需要重新判断；， 2.1.3从水面机器人的动作空间选择：当主、从水面机器人之间的距离L1≤2r时，从水面机器人时采取连续动作，其余情况从水面机器人选择单步动作； 2.1.4规避路径冲突：当主、从水面机器人各自向着对方的方向移动时，为避免双方发生碰撞，无紧急任务、优先级别较低的从水面机器人将在子动作空间B1＝{C,D,E,F}中选取连续动作； 2.2主、从水面机器人根据当前所处位置与运动母船的距离Dis(t)参照不同的策略获得不同的动作，具体为： 2.2.1主水面机器人的回归部分：当主水面机器人距离母船较远且对环境信息掌握并不完全，所以在此阶段水面机器人主要侧重于采取更多的探索动作来更快的获取环境信息，在选取动作之前通过判断0到1的随机数X与探索因子ε1的大小决定水面机器人选取动作的准则，其中ε1∈(0,1)；若X＜ε1，则主水面机器人将会在动作空间A＝{a1,a2,a3,a4,a5, a6,a7,a8}之中随机选取一个动作；若X＞ ε1，则主水面机器人将在动作空间A＝{a1,a2,a3,a4, a5,a6,a7,a8}之中选取最大Q 值所对应的动作；在回归部分的探索因子 ε1为：上式中D1表示在此阶段主水面机器人的变化步长， T1为此阶段的最大迭代次数且e代表当前的迭代次数，若超过最大迭代次数T1，则主水面机器人将进入回收部分； 2.2.2主水面机器人的回收部分：当主水面机器人朝着母船的方向运动了一段距离，对环境信息有所了解，所以在此阶段侧重于主水面机器人利用已有的信息采取最优的动作接近母船，在选取动作之前通过判断随机数X与探索因子ε2的大小决定主水面机器人选取动作的准则；若X＜ε2，则主水面机器人将会在动作空间A＝{a1,a2,a3,a4,a5,a6,a7,a8}之中随机选取一个动作；若X＞ε2，则主水面机器人将在动作空间A＝{a1,a2,a3,a4,a5,a6,a7,a8}之中选取最大Q 值所对应的动作；在回归部分的探索因子 ε2为：上式中D2表示在此阶段主水面机器人的变化步长， T2为此阶段的最大迭代次数且e代表当前的迭代次数，可保证 ε2∈(0,1)； 2.2.3从水面机器人的回归部分：当从水面机器人距离母船较远且对环境信息掌握并不完全，所以在此阶段从水面机器人主要侧重于采取更多的探索动作来更快的获取环境信息，在选取动作之前通过判断随机数X与探索因子ε1的大小决定主水面机器人选取动作的准则；若X＜ ε1，则从水面机器人将会在单步动作子空间B0＝{b1,b2,b3,b4,b5,b6,b7,b8}之中随机选取一个动作；若X＞ ε1，则从水面机器人将在单步动作子空间B0＝{b1,b2,b3,b4,b5,b6, b7,b8}之中选取采取最大Q值所对应的动作；从水面机器人选取某动作后，检测若执行此动作后的下一状态位置，若下一位置主和从两个机器人之间的距离L1≤2r则从水面机器人将权　利　要　求　书 2/5 页 3 CN 115328143 A 3

专利 一种基于环境驱动的主从水面机器人回收导引方法

专利一种基于环境驱动的主从水面机器人回收导引方法