iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211273736.7 (22)申请日 2022.10.18 (71)申请人 太保科技有限公司 地址 200010 上海市黄浦区中山 南路1号1 1 层(名义楼层)1 1V6室 (72)发明人 张凯  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 曹伟 (51)Int.Cl. G06Q 10/10(2012.01) G06Q 50/04(2012.01) G06N 20/00(2019.01) (54)发明名称 一种模型训练方法、 装置、 系统及可读存储 介质 (57)摘要 一种模型训练方法、 装置、 系统及可读存储 介质, 应用于强化学习技术领域。 该方法包括: 判 断强化学习模 型是否收敛; 若强化学习模型不收 敛, 则随机选择一个软件环境并生成一个随机 数; 判断机 数是否大于预设阈值; 若否, 则随机选 取一条训练数据; 对训练数据进行离线强化学 习; 若是, 则对软件环境进行在线强化学习; 完成 强化学习后, 再次判断强化学习模型是否收敛; 若强化学习模 型不收敛, 则再次随机选择一个软 件环境并生成一个随机数; 若强化学习模型收 敛, 则结束训练。 由此, 本申请基于强化学习算法 训练模型, 使模型充分学习已知的容错知识, 并 在相类似错误发生时可以自动处理, 大大提高流 程容错性。 权利要求书2页 说明书8页 附图4页 CN 115545660 A 2022.12.30 CN 115545660 A 1.一种模型训练生成方法, 其特 征在于, 所述方法包括: 判断强化学习模型 是否收敛; 若所述强化学习模型不收敛, 则随机 选择一个软件环境并生成一个随机数; 若所述强化学习模型收敛, 则结束训练; 判断所述随机数 是否大于预设阈值; 若否, 则随机选取一条训练数据, 所述训练数据来自于所述软件环境; 对所述训练数据 进行离线强化学习; 若是, 则对所述软件环境进行在线强化学习; 完成强化学习后, 再次执 行所述随机 选择一个软件环境并生成一个随机数的操作。 2.根据权利要求1所述的方法, 其特 征在于, 所述判断强化学习模型 是否收敛, 包括: 基于DQN、 DDQN结合模仿学习的算法, 检查强化学习模型 是否收敛。 3.根据权利要求1所述的方法, 其特 征在于, 所述训练数据的生成方法, 包括: 判断RPA流 程中是否存在未记录的错 误与相应的容 错流程; 若存在未记录的错 误与相应的容 错流程, 则模拟产生第一 错误; 判断所述RPA流 程是否可以完成容 错处理流程; 若是, 则记录所述 容错处理流程; 若否, 则进行 人工干预; 基于所述人工 干预的流 程, 记录所述 容错处理流程; 记录所述容错处理流程后, 重新判断所述RPA流程中是否存在未记录的错误与相应的 容错流程; 若存在未记录的错 误与相应的容 错流程, 则模拟产生第二 错误; 若不存在未记录的错 误与相应的容 错流程, 则记录正常处 理流程; 基于所述 正常处理流程, 产生训练数据。 4.根据权利要求3所述的方法, 其特征在于, 所述容错处理流程, 包括: 容错处理过程中 的每一步操作、 所述操作的对应环境以及所述操作前后的环境状态。 5.一种模型训练生成装置, 其特征在于, 所述装置包括: 第 一判断模块、 选择生成模块、 第二判断模块、 选取模块、 离线强化学习模块、 在线强化学习模块; 所述第一判断模块, 用于判断强化学习模型是否收敛; 若所述强化学习模型收敛, 则结 束训练; 所述选择生成模块, 用于若所述强化学习模型不收敛, 则随机选择一个软件环境并生 成一个随机数; 所述第二判断模块, 用于判断所述随机数 是否大于预设阈值; 所述选取模块, 用于若随机数不大于预设阈值范围, 则随机选取一条训练数据, 所述训 练数据来自于所述软件环境; 所述离线强化学习模块, 用于对所述训练数据进行离线强化学习; 所述在线强化学习模块, 用于若随机数大于预设阈值范围, 对所述软件环境进行在线 强化学习; 所述选择生成模块, 还用于完成强化学习后, 再次执行所述随机选择一个软件环境并 生成一个随机数的操作。 6.根据权利要求5所述的装置, 其特 征在于, 所述第一判断模块, 具体用于:权 利 要 求 书 1/2 页 2 CN 115545660 A 2基于DQN、 DDQN结合模仿学习的算法, 检查强化学习模型 是否收敛。 7.根据权利要求5所述的装置, 其特征在于, 所述训练数据的生成装置, 包括: 第 一判断 模块、 模拟模块、 第二判断模块、 第一记录模块、 人工 干预模块、 第二记录模块、 产生模块; 所述第一判断模块, 用于判断RPA流 程中是否存在未记录的错 误与相应的容 错流程; 所述模拟模块, 用于若存在未记录的错 误与相应的容 错流程, 则模拟产生第一 错误; 所述第二判断模块, 判断所述RPA流 程是否可以完成容 错处理流程; 所述第一记录模块, 用于若所述RPA流程可以完成容错处理流程, 则记录所述容错处理 流程; 所述人工 干预模块, 用于若所述RPA流 程不可以完成容 错处理流程, 则进行 人工干预; 所述第一记录模块, 还用于基于所述人工 干预的流 程, 记录所述 容错处理流程; 所述第一判断模块, 还用于记录所述容错处理流程后, 重新判断所述RPA流程中是否存 在未记录的错 误与相应的容 错流程; 所述模拟模块, 还用于若存在未记录的错 误与相应的容 错流程, 则模拟产生第二 错误; 所述第二记录模块, 用于若不存在未记录的错误与相应的容错流程, 则记录正常处理 流程; 所述产生模块, 用于基于所述 正常处理流程, 产生训练数据。 8.根据权利要求7所述的装置, 其特征在于, 所述容错处理流程, 包括: 容错处理过程中 的每一步操作、 所述操作的对应环境以及所述操作前后的环境状态。 9.一种模型训练生成设备, 其特 征在于, 包括: 存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1至4中任一项所述的方法的各个步 骤。 10.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时, 实现如权利要求1至4中任一项所述的方法的各个步骤。权 利 要 求 书 2/2 页 3 CN 115545660 A 3

.PDF文档 专利 一种模型训练方法、装置、系统及可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型训练方法、装置、系统及可读存储介质 第 1 页 专利 一种模型训练方法、装置、系统及可读存储介质 第 2 页 专利 一种模型训练方法、装置、系统及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:18:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。