专利 一种基于强化学习的改进数字孪生车间调度方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210964618.4 (22)申请日 2022.08.12 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人易文超　邱洪斌　陈勇　裴植　王成　张文珠　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师龚如朝 (51)Int.Cl. G05B 19/418(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习的改进数字孪生车间调度方法 (57)摘要本发明公开了一种基于强化学习的改进数字孪生车间调度方法，包括以下步骤： 1)根据物理车间的组成拆解为多个子系统，将每个子系统抽象为智能体/智能体群，并建立参数化模型； 2) 搭建虚拟车间的数字孪生模型，实现从参数化模型到数字孪生模型的一一映射； 3)训练强化学习策略模型； 4)将训练完成的强化学习策略模型嵌入到数字孪生车间模型的底层调度算法中，构建仿真结果的实时可视化，最终打包成独立的车间调度系统。本发明基于强化学习算法，实现了数字孪生车间调度系统对车间的高效调度的同时有效地节约了设备运行的成本，实时的可视化界面方便车间管理者可以清楚查看车间的实时运行状况，起到良好的车间管理决策支持作用。权利要求书2页说明书9页附图3页 CN 115373353 A 2022.11.22 CN 115373353 A 1.一种基于强化学习的改进数字孪生车间调度方法，其特征在于，所述方法包括以下步骤： 1)按照企业生产的作业流程将复杂的物理车间系统拆解为多个子系统的集合，每个子系统均抽象为一个智能体或智能体群，之后基于经验设置智能体或智能体群的相关参数，对每个单独的智能体或智能体群而言，所有相关参数组成的集合即为该智能体或智能体群的参数化模型，之后继续以集合的形式进行参数化建模直至得到整个复杂物理车间的完整参数化模型，从而建立由多个智能体或智能体群组成的虚拟车间的参数化模型； 2)基于建立好的参数化模型，借助混合建模仿真方法在仿真软件中搭建虚拟车间的数字孪生模型，实现从参数化模型到数字孪生模型的一一映射； 3)重复运行虚拟车间的数字孪生模型，得到充分表征车间中智能体与仿真环境交互信息的训练数据集，并利用该训练数据集训练强化学习策略模型； 4)通过仿真软件预留的JAVA接口，将训练好的强化学习策略模型嵌入到虚拟车间的数字孪生模型底层算法中，实现强化学习策略模型可以基于实时的仿真数据输出策略，从而驱动数字孪生模型的后续运行，数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻，如此迭代运行，得到具备自我进化机制的基于强化学习的改进数字孪生车间调度系统；并且将数据可视化插件集成到数字孪生模型中，实现仿真结果的实时可视化，并将其打包成独立的车间调度系统软件。 2.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤1)中整个复杂物理车间的完整参数化模型表示为以下集合：其中， A表示加工机器集群所对应的智能体群中的相关参数集合； Na表示加工机器集群中机器的数量；表示所有加工机器加工不同物料所需的时长； B表示待加工物料对应的智能体群中的相关参数集合； Nb表示待加工的物料的种类数；表示所有待加工物料的几何尺寸的集合，几何尺寸以长、宽、高进行表示。 3.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤2)中混合使用状态图和流程图两种仿真建模方法搭建仿真模型，对每个单独的智能体或智能体群而言，针对其状态性质的不同选择状态图和流程图中的其中一种方式建立这个智能体或智能体群的仿真逻辑，在搭建仿真模型的过程中基于步骤1)建立完成的参数化模型进行相关参数的设置，通过仿真软件中的参数插件实现参数化模型到仿真模型的一一映射。 4.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤3)中具体过程为：基于步骤1)建立完成的参数化模型对虚拟车间的数字孪生模型作数学抽象，将数字孪生模型建立成强化学习模型，主要是以构建奖励函数、动作函数、状态函数为目标，得到基于参数化模型抽象建立的强化学习模型；其中，物理车间抽象的智能体群包括加工机器群、物料群以及叉车AGV集群，对AGV集群而言，其在车间内充当的角色是搬运物料；奖励函数表示为：权　利　要　求　书 1/2 页 2 CN 115373353 A 2其中fi表示各个状态子函数， δi表示各个状态子函数对应的系数；动作函数表示为： ai＝{starti,finali} stari表示每台AGV选择的前往的起点， finali表示每台AGV选择前往的终点；状态函数表示为：其中， A表示加工机器集群所对应的智能体群中的相关参数集合； Na表示加工机器集群中机器的数量；表示所有加工机器加工不同物料所需的时长； B表示待加工物料对应的智能体群中的相关参数集合； Nb表示待加工的物料的种类数；表示所有待加工物料的几何尺寸的集合，几何尺寸以长、宽、高进行表示；之后利用仿真模型的可重复性得到大量的可以表征虚拟车间中智能体或智能体群和仿真环境之间的交互信息的数据集，作为训练强化学习策略模型的训练数据集，最终得到经过训练完成的最优强化学习策略模型。 5.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤4)中构建的基于强化学习的改进数字孪生车间调度系统，所述系统包括：实时数据库存储模块：基于Anylogic的数据库组件，将仿真模型的实时状态数据存储在相应的数据库表中，一方面用于强化学习策略模块的系统状态数据读取，另一方面用于数据可视化插件的状态数据读取和可视化；调度策略模块：基于PathmindHelper接口，将训练好的强化学习策略模块与仿真模型进行衔接，实现仿真模型可以基于强化学习模块输出的策略迭代运行；仿真数据实时可视化模块：通过该模块，将各类可视化插件与仿真模型进行连接，可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。 6.如权利要求5所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，所述调度策略模块中，基于PathmindHelper接口，将训练好的强化学习策略模块与仿真模型进行衔接，在policy file处引入经过训练完成的强化学习策略模型的程序包，修改 enabled和mode参数设置，使得强化学习策略模型作为该数字孪生车间调度系统的底层驱动算法。权　利　要　求　书 2/2 页 3 CN 115373353 A 3

专利 一种基于强化学习的改进数字孪生车间调度方法

专利一种基于强化学习的改进数字孪生车间调度方法