iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211203914.9 (22)申请日 2022.09.29 (71)申请人 上海商汤科技 开发有限公司 地址 201306 上海市中国 (上海) 自由贸易 试验区临港新片区环湖西二路888号C 楼 (72)发明人 张骁立 易先威 李康宇  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 专利代理师 袁忠林 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 模型训练方法、 装置、 系统、 电子 设备及存储 介质 (57)摘要 本公开提供了一种模型训练方法、 装置、 系 统、 电子设备及存储介质, 该方法应用于用户端, 包括: 创建与算力池的资源规格相匹配的云开发 机; 其中, 云开发机内预置有命令行工具; 在云开 发机内生 成人工智能模型对应的程序代码后, 响 应于命令 行工具的使用操作, 基于程序代码和云 开发机的环 境参数, 生成人工智能模 型对应的训 练任务; 利用命令行工具将训练任务发送给所述 算力池, 并在算力池基于训练任务指示的程序代 码, 按照环 境参数执行模型训练任务得到训练结 果之后, 在云开发机内接收人工智能模型对应的 训练结果。 权利要求书4页 说明书17页 附图5页 CN 115543614 A 2022.12.30 CN 115543614 A 1.一种模型训练方法, 其特 征在于, 应用于用户端, 包括: 创建与算力池的资源规格相匹配的云开发机; 其中, 所述云开发机内预置有命令行工 具; 在所述云开发机内生成人工智能模型对应的程序代码后, 响应于所述命令行工具的使 用操作, 基于所述程序代码和所述云开发机的环境参数, 生成所述人工智能模型对应的训 练任务; 利用所述命令行工具将所述训练任务发送给所述算力池, 并在所述算力池基于所述训 练任务指示的所述程序代码, 按照所述环境参数执行模型训练任务得到训练结果之后, 在 所述云开发机内接收所述人工智能模型对应的训练结果。 2.根据权利要求1所述的方法, 其特征在于, 所述响应于所述命令行工具的使用操作, 基于所述程序代码和所述云开发机的环境参数, 生成所述人工智能模型对应的训练任务, 包括: 响应于所述命令行工具的使用操作, 接收所述人工智能模型对应的任务参数; 其中, 所 述任务参数包括训练所述人工智能模型时应使用的节点数、 和每 个节点的卡数; 基于所述程序代码、 所述云开发机的环境参数和所述任务参数, 生成所述人工智能模 型对应的训练任务; 以便所述算力池在接收到所述训练任务之后, 基于所述程序代码, 按照所述环境参数 和所述任务 参数执行多机多卡的模型训练任务, 得到训练结果。 3.根据权利要求2所述的方法, 其特征在于, 所述利用所述命令行工具将所述训练任务 发送给所述算力池, 包括: 获取校验信息; 利用所述命令行工具将所述校验信 息和所述训练任务发送给云管平台, 以便所述云管 平台基于所述校验信息, 确定所述云开发机对应的算力 资源额度, 并基于所述算力 资源额 度, 对所述训练任务中的任务参数进 行参数验证, 得到参数验证结果; 以及在所述参数验证 结果指示验证通过的情况 下, 所述云管平台将所述训练任务 转发给所述算力池。 4.根据权利要求1 ‑3任一所述的方法, 其特征在于, 在创建与算力池的资源规格相匹配 的云开发机之后, 所述方法还 包括: 响应于所述命令行工具的触发, 判断所述云开发机内是否存在有效令牌to ken; 若不存在, 则接收所述云开发机对应的标识信息, 并将所述标识信息发送给云管平台; 在所述云管平台基于所述标识信息进行身份验证, 得到身份验证结果之后, 接收所述 身份验证结果; 在所述身份验证结果指示为验证通过的情况下, 从所述云管平台获取token, 并将所述 云开发机的状态从不可用状态更新 为可用状态。 5.根据权利要求1 ‑4任一所述的方法, 其特征在于, 在接收到所述人工智能模型对应的 训练结果之后, 所述方法还 包括: 在所述训练结果指示模型训练成功的情况下, 基于所述训练结果包括的日志文件中的 存储地址, 获取训练后的人工智能模型; 并利用所述训练后的人工智能模型 执行目标任务。 6.根据权利要求1 ‑5任一所述的方法, 其特征在于, 在接收到所述人工智能模型对应的 训练结果之后, 所述方法还 包括:权 利 要 求 书 1/4 页 2 CN 115543614 A 2在所述训练结果指示模型训练出错的情况下, 基于所述训练结果包括的日志文件, 生 成调整信息; 响应于模型调整操作, 基于所述调整信息, 在所述云开发机内对所述人工智能模型的 程序代码进行调整, 得到调整后的程序代码。 7.一种模型训练方法, 其特 征在于, 应用于算力池, 包括: 接收利用命令行工具发送的训练任务, 其中, 所述训练任务为用户端在创建的云开发 机内生成人工智能模型对应的程序代码之后, 基于所述程序 代码和所述云开 发机的环境参 数生成的; 根据所述训练任务指示的环境 参数进行资源调度, 确定执 行训练任务的算力节点; 控制所述算力节点基于所述程序代码执行模型训练任务, 生成训练结果, 并将所述训 练结果返回给 所述云开发机 。 8.根据权利要求7所述的方法, 其特征在于, 在所述训练任务为基于所述程序代码、 任 务参数、 和所述云开发机的环境参数生成的, 所述任务参数包括训练所述人工智能模型时 应使用的节点数、 和每个节点的卡数情况下, 所述根据所述训练任务指示的环境参数进行 资源调度, 确定执 行训练任务的算力节点, 包括: 根据所述环境 参数和所述任务 参数进行资源调度, 确定执 行训练任务的算力节点。 9.一种模型训练方法, 其特 征在于, 应用于云管平台, 包括: 接收利用命令行工具发送的校验信息和训练任务, 其中, 所述训练任务为用户端在创 建的云开发机内生成人工智能模型对应的程序代码之后, 基于所述程序代码、 任务参数和 所述云开 发机的环境参数生成的, 所述任务参数包括训练所述人工智能模 型时应使用的节 点数、 和每 个节点的卡数; 基于所述校验信息, 确定所述云开发机对应的算力资源额度; 基于所述算力资源额度, 对所述训练任务中的任务参数进行参数验证, 得到参数验证 结果; 在所述参数验证结果指示验证通过的情况下, 将所述训练任务转发给算力池, 以便所 述算力池基于所述训练任务指示的所述程序 代码, 按照所述环境参数和所述任务参数执行 模型训练任务, 得到训练结果。 10.根据权利要求9所述的方法, 其特 征在于, 所述方法还 包括: 接收所述云开发机发送的标识信息; 其中, 所述标识信息为在所述云开发机内不存在 有效令牌to ken的情况 下, 云开发机 接收到的信息; 基于所述标识信息进行身份验证, 得到身份验证结果; 将所述身份验证结果 转发给所述云开发机 。 11.一种模型训练系统, 其特 征在于, 所述系统包括: 用户端和算力池; 所述用户端, 用于创建与算力池的资源规格相匹配的云开发机; 其中, 所述云开发机内 预置有命令行工具; 在所述云开发机内生成人工智能模型对应的程序代码后, 响应于所述 命令行工具 的使用操作, 基于所述程序代码和所述云开发机的环境参数, 生成所述人工智 能模型对应的训练任务; 并利用所述命令行工具将所述训练任务发送给所述算力池; 接 收 所述算力池返回的训练结果; 所述算力池, 用于基于所述训练任务指示的所述程序代码, 按照所述环境参数执行模权 利 要 求 书 2/4 页 3 CN 115543614 A 3

.PDF文档 专利 模型训练方法、装置、系统、电子设备及存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、装置、系统、电子设备及存储介质 第 1 页 专利 模型训练方法、装置、系统、电子设备及存储介质 第 2 页 专利 模型训练方法、装置、系统、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:13:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。