(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211311359.1
(22)申请日 2022.10.25
(71)申请人 北京智源人工智能研究院
地址 100084 北京市海淀区中关村东路1号
院8号楼三层B201D-1
(72)发明人 王宁 黄铁军 马雷 赵明阳
(74)专利代理 机构 北京动力号知识产权代理有
限公司 1 1775
专利代理师 梁艳
(51)Int.Cl.
G06N 20/00(2019.01)
G06T 3/00(2006.01)
(54)发明名称
强化学习中三维形变体的状态和奖励稳定
数值的获取方法
(57)摘要
本发明公开了一种强化学习中三维形变体
的状态和奖励稳定数值的获取方法, 包括定义目
标对象、 标准对象和标准对象坐标系; 获取目标
对象和标准对象的变换关系; 利用变换关系将标
准对象坐标系进行三维变换, 得到目标对象综合
坐标系; 利用目标对象综合坐标系计算得到强化
学习中三维形变体的状态和奖励的稳定数值。 由
于目标对象综合坐标系是数值稳定的, 因此通过
目标对象综合坐标系建立的状态和奖励是数值
稳定的, 便于对 形变体的状态和奖励进行定性定
量描述, 在强化学习相关的训练过程中更容易稳
定收敛。 本发明提供的技术方案适用范围广, 通
用性强, 方法简单, 除了对形变体和强化学习任
务相关的定义外, 不存在需要手工调试的超参
数, 更容易推广应用。
权利要求书2页 说明书10页 附图3页
CN 115545219 A
2022.12.30
CN 115545219 A
1.一种强化学习中三维形变 体的状态和奖励稳定数值的获取 方法, 其特 征在于, 包括:
定义目标对象、 标准对象和标准对象坐标系; 其中, 所述目标对象为强化学习中三维形
变体; 所述标准对 象的形状是目标对 象的形状特例; 所述标准对 象坐标系为一个用于体现
标准对象整体形状和功能的三维正交坐标系;
获取目标对象和标准对象的变换关系;
利用变换关系将标准对象坐标系进行三维变换, 得到目标对象综合 坐标系;
利用目标对象综合 坐标系计算得到强化学习中三维形变 体的状态和奖励的稳定数值。
2.如权利要求1所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述获取目标对象和标准对象的变换关系包括:
定义目标对象和标准对象上对应的匹配点;
计算得到目标对象和标准对象上匹配点的变换关系, 作为目标对象和标准对象的变换
关系。
3.如权利要求2所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述计算得到目标对象和标准对象上匹配点的变换关系包括:
R=VUT;
其中, 匹配点用列向量表示;
为标准对象上的匹配点; pi为目标对象上的匹配点; m为
匹配点个数;
为标准对象上的匹配点中心;
为目标对 象上的匹配点中心;
为减去中
心偏移的标准对象匹配点; qi为减去中心偏移的目标对象匹配点; H为矩阵; qiT为qi的转置,
qi=[q1,q2…qm],
U和V通过矩阵H的奇异值分解H=UΛV得到; UT为U
的转置; M为表示变换关系的矩阵; R表示旋转部分; T表示平 移部分。
4.如权利要求1所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述利用变换关系将标准对 象坐标系进行三维变换, 得到目标对 象综合坐标系
包括:
表示目标对象综合 坐标系的矩阵
权 利 要 求 书 1/2 页
2
CN 115545219 A
2其中 ,
表示变换关系矩阵 , R表示旋转部分 , T表示平移部分 ;
表示标准对象坐标系矩阵, T0表示坐标系原点, R0表示坐标系朝向, R0的
列向量表示 正交坐标轴。
5.如权利要求1所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述利用目标对象综合坐标系计算得到强化学习中三 维形变体的状态和奖励的
稳定数值包括:
在目标对象综合坐标系中定义标准对象的具身状态数值, 并确定对应的目标对象的具
身状态数值, 根据标准对象的具身状态数值和对应的目标对象的具身状态数值计算得到强
化学习中三维形变 体的具身状态数值;
利用目标对象综合 坐标系定义 三维形变 体的轨迹状态;
在三维形变体运动过程中, 根据定义的轨迹状态计算得到运动轨迹, 并根据所述运动
轨迹计算三维形变 体的运动速度及奖励。
6.如权利要求5所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述根据标准对象的具身状态数值和对应的目标对象的具身状态数值计算得到
强化学习中三维形变 体的具身状态数值包括:
其中,
表示标准对象的具身状态数值; sk表示对应的目标对象的具身状态数值, 其 中
k=1,2…n, n为三维形变 体的具身状态的数目。
7.如权利要求5所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述利用目标对象综合坐标系定义三 维形变体的轨迹状态, 具体为: 利用目标对
象综合坐标系的原点定义 三维形变 体的轨迹状态。
8.如权利要求7所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法, 其
特征在于, 所述在三维形变体运动过程中, 根据定义的轨迹状态计算得到运动轨迹, 并根据
所述运动轨迹计算三维形变 体的运动速度及奖励包括:
根据目标对象综合 坐标系的原点定义的轨 迹状态计算得到的运动轨 迹为
速度
奖励
其中, Vconst为期望的运动速度; ti表示时间序列, i =1,2…m。
9.一种存储器, 其特征在于, 存储有多条指令, 所述指令用于实现如权利要求1 ‑8任一
项所述的方法。
10.一种电子设备, 其特征在于, 包括处理器和与所述处理器连接的存储器, 所述存储
器存储有多条指令, 所述指令可被所述处理器加载并执行, 以使所述处理器能够执行如权
利要求1‑8任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115545219 A
3
专利 强化学习中三维形变体的状态和奖励稳定数值的获取方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:13:29上传分享