(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210964618.4
(22)申请日 2022.08.12
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 易文超 邱洪斌 陈勇 裴植
王成 张文珠
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 龚如朝
(51)Int.Cl.
G05B 19/418(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于强化学习的改进数字孪生车间调
度方法
(57)摘要
本发明公开了一种基于强化学习的改进数
字孪生车间调度方法, 包括以下步骤: 1)根据物
理车间的组成拆解为多个子系统, 将每个子系统
抽象为智能体/智能体群, 并建立参数化模型; 2)
搭建虚拟车间的数字孪生模型, 实现从参数化模
型到数字孪生模型的一一映射; 3)训练强化学习
策略模型; 4)将训练完成的强化学习策略模型嵌
入到数字孪生车间模型的底层调度算法中, 构建
仿真结果的实时可视化, 最终打包成独立的车间
调度系统。 本发明基于强化学习算法, 实现了数
字孪生车间调度系统对车间的高效调度的同时
有效地节约了设备运行的成本, 实时的可视化界
面方便车间管理者可以清楚查看车间的实时运
行状况, 起到良好的车间管理决策支持作用。
权利要求书2页 说明书9页 附图3页
CN 115373353 A
2022.11.22
CN 115373353 A
1.一种基于强化学习的改进数字孪生车间调度方法, 其特征在于, 所述方法包括以下
步骤:
1)按照企业生产的作业流程将复杂的物 理车间系统拆解为多个子系统的集合, 每个子
系统均抽象为一个智能体或智能体群, 之后基于经验设置智能体或智能体群的相关参数,
对每个单独的智能体或智能体群而言, 所有相关参数组成的集合即为该智能体或智能体群
的参数化模型, 之后继续以集合的形式进 行参数化建模直至得到整个复杂物理车间的完整
参数化模型, 从而建立由多个智能体或智能体 群组成的虚拟车间的参数化模型;
2)基于建立好的参数化模型, 借助混合建模仿真方法在仿真软件中搭建虚拟车间的数
字孪生模型, 实现从参数化模型到数字 孪生模型的一 一映射;
3)重复运行虚拟车间的数字孪生模型, 得到充分表征车间中智能体与仿真环境交互信
息的训练数据集, 并利用该训练数据集训练强化学习策略模型;
4)通过仿真软件预留的JAVA接口, 将训练好的强化学习策略模型嵌入到虚拟车间的数
字孪生模型底层算法中, 实现强化学习 策略模型可以基于实时的仿真数据输出策略, 从而
驱动数字孪生模型的后续运行, 数字孪生模型又基于强化学习策略模型输出的策略运行到
下一时刻, 如此迭代运行, 得到具备自我进化机制的基于强化学习的改进数字孪生车间调
度系统; 并且将数据可视化插件集 成到数字孪生模 型中, 实现仿 真结果的实时可视化, 并将
其打包成独立的车间调度系统软件。
2.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法, 其特征在于,
步骤1)中整个复杂物理车间的完整参数化模型表示 为以下集 合:
其中, A表示加 工机器集群所对应的智能体群中的相关参数集合; Na表示加工机器集群
中机器的数量;
表示所有加工机器加工不同物料所需的时长; B表示待加工物料
对应的智能体群中的相关参 数集合; Nb表示待加工的物料的种类数;
表示所有 待加工物料的几何尺寸的集 合, 几何尺寸以长、 宽、 高进行表示。
3.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法, 其特征在于,
步骤2)中混合使用状态图和流程图两种仿 真建模方法搭建仿 真模型, 对每个单独的智能体
或智能体群而言, 针对其状态性质的不同选择状态图和流程图中的其中一种方式建立这个
智能体或智能体群的仿 真逻辑, 在搭建仿 真模型的过程中基于步骤1)建立完成的参数化模
型进行相关参数的设置, 通过仿真软件中的参数插件实现参数化模型到仿 真模型的一一映
射。
4.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法, 其特征在于,
步骤3)中具体过程 为:
基于步骤1)建立完成的参数化模型对虚拟车间的数字孪生模型作数学抽象, 将数字孪
生模型建立成强化学习模型, 主要是以构建奖励函数、 动作函数、 状态函数为目标, 得到基
于参数化模型抽象建立的强化学习模型;
其中, 物理车间抽象的智能体群包括加工机器群、 物料群以及叉车AGV集群, 对AGV集群
而言, 其在车间内充当的角色是 搬运物料;
奖励函数表示 为:权 利 要 求 书 1/2 页
2
CN 115373353 A
2其中fi表示各个 状态子函数, δi表示各个 状态子函数对应的系数;
动作函数表示 为:
ai={starti,finali}
stari表示每台AGV选择的前往的起 点, finali表示每台AGV选择 前往的终点;
状态函数表示 为:
其中, A表示加 工机器集群所对应的智能体群中的相关参数集合; Na表示加工机器集群
中机器的数量;
表示所有加工机器加工不同物料所需的时长; B表示待加
工物料对应的智能体 群中的相关参数集 合; Nb表示待加工的物料的种类数;
表示所有待加工物料的几何尺寸的集合, 几何尺寸以长、
宽、 高进行表示;
之后利用仿真模型的可重复性得到大量的可以表征虚拟车间中智能体或智能体群和
仿真环境之间的交互信息的数据集, 作为训练强化学习 策略模型 的训练数据集, 最终得到
经过训练完成的最优强化学习策略模型。
5.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法, 其特征在于,
步骤4)中构建的基于强化学习的改进数字 孪生车间调度系统, 所述系统包括:
实时数据库存储模块: 基于Anylogic的数据库组件, 将仿真模型的实时状态数据存储
在相应的数据库表中, 一方面用于强化学习 策略模块的系统状态数据读取, 另一方面用于
数据可视化插 件的状态数据读取和可视化;
调度策略模块: 基于PathmindHelper接 口, 将训练好的强化学习策略模块与仿真模型
进行衔接, 实现仿真模型 可以基于强化学习模块输出的策略迭代运行;
仿真数据实时可视化模块: 通过该模块, 将各类可视化插件与仿真模型进行连接, 可以
实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。
6.如权利要求5所述的一种基于强化学习的改进数字孪生车间调度方法, 其特征在于,
所述调度策略模块中, 基于PathmindHelper接口, 将训练好的强化学习策略模块与仿真模
型进行衔接, 在policy file处引入经过训练完成的强化学习策略模型的程序包, 修改
enabled和mode参数设置, 使得强化学习策略模型作为该数字孪生车间调度系统的底层驱
动算法。权 利 要 求 书 2/2 页
3
CN 115373353 A
3
专利 一种基于强化学习的改进数字孪生车间调度方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:00:29上传分享