专利 强化学习中三维形变体的状态和奖励稳定数值的获取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211311359.1 (22)申请日 2022.10.25 (71)申请人北京智源人工智能研究院地址 100084 北京市海淀区中关村东路1号院8号楼三层B201D-1 (72)发明人王宁　黄铁军　马雷　赵明阳　 (74)专利代理机构北京动力号知识产权代理有限公司 1 1775 专利代理师梁艳 (51)Int.Cl. G06N 20/00(2019.01) G06T 3/00(2006.01) (54)发明名称强化学习中三维形变体的状态和奖励稳定数值的获取方法 (57)摘要本发明公开了一种强化学习中三维形变体的状态和奖励稳定数值的获取方法，包括定义目标对象、标准对象和标准对象坐标系；获取目标对象和标准对象的变换关系；利用变换关系将标准对象坐标系进行三维变换，得到目标对象综合坐标系；利用目标对象综合坐标系计算得到强化学习中三维形变体的状态和奖励的稳定数值。由于目标对象综合坐标系是数值稳定的，因此通过目标对象综合坐标系建立的状态和奖励是数值稳定的，便于对形变体的状态和奖励进行定性定量描述，在强化学习相关的训练过程中更容易稳定收敛。本发明提供的技术方案适用范围广，通用性强，方法简单，除了对形变体和强化学习任务相关的定义外，不存在需要手工调试的超参数，更容易推广应用。权利要求书2页说明书10页附图3页 CN 115545219 A 2022.12.30 CN 115545219 A 1.一种强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，包括：定义目标对象、标准对象和标准对象坐标系；其中，所述目标对象为强化学习中三维形变体；所述标准对象的形状是目标对象的形状特例；所述标准对象坐标系为一个用于体现标准对象整体形状和功能的三维正交坐标系；获取目标对象和标准对象的变换关系；利用变换关系将标准对象坐标系进行三维变换，得到目标对象综合坐标系；利用目标对象综合坐标系计算得到强化学习中三维形变体的状态和奖励的稳定数值。 2.如权利要求1所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述获取目标对象和标准对象的变换关系包括：定义目标对象和标准对象上对应的匹配点；计算得到目标对象和标准对象上匹配点的变换关系，作为目标对象和标准对象的变换关系。 3.如权利要求2所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述计算得到目标对象和标准对象上匹配点的变换关系包括： R＝VUT；其中，匹配点用列向量表示；为标准对象上的匹配点； pi为目标对象上的匹配点； m为匹配点个数；为标准对象上的匹配点中心；为目标对象上的匹配点中心；为减去中心偏移的标准对象匹配点； qi为减去中心偏移的目标对象匹配点； H为矩阵； qiT为qi的转置， qi＝[q1,q2…qm]， U和V通过矩阵H的奇异值分解H＝UΛV得到； UT为U 的转置； M为表示变换关系的矩阵； R表示旋转部分； T表示平移部分。 4.如权利要求1所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述利用变换关系将标准对象坐标系进行三维变换，得到目标对象综合坐标系包括：表示目标对象综合坐标系的矩阵权　利　要　求　书 1/2 页 2 CN 115545219 A 2其中，表示变换关系矩阵， R表示旋转部分， T表示平移部分；表示标准对象坐标系矩阵， T0表示坐标系原点， R0表示坐标系朝向， R0的列向量表示正交坐标轴。 5.如权利要求1所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述利用目标对象综合坐标系计算得到强化学习中三维形变体的状态和奖励的稳定数值包括：在目标对象综合坐标系中定义标准对象的具身状态数值，并确定对应的目标对象的具身状态数值，根据标准对象的具身状态数值和对应的目标对象的具身状态数值计算得到强化学习中三维形变体的具身状态数值；利用目标对象综合坐标系定义三维形变体的轨迹状态；在三维形变体运动过程中，根据定义的轨迹状态计算得到运动轨迹，并根据所述运动轨迹计算三维形变体的运动速度及奖励。 6.如权利要求5所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述根据标准对象的具身状态数值和对应的目标对象的具身状态数值计算得到强化学习中三维形变体的具身状态数值包括：其中，表示标准对象的具身状态数值； sk表示对应的目标对象的具身状态数值，其中 k＝1,2…n， n为三维形变体的具身状态的数目。 7.如权利要求5所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述利用目标对象综合坐标系定义三维形变体的轨迹状态，具体为：利用目标对象综合坐标系的原点定义三维形变体的轨迹状态。 8.如权利要求7所述的强化学习中三维形变体的状态和奖励稳定数值的获取方法，其特征在于，所述在三维形变体运动过程中，根据定义的轨迹状态计算得到运动轨迹，并根据所述运动轨迹计算三维形变体的运动速度及奖励包括：根据目标对象综合坐标系的原点定义的轨迹状态计算得到的运动轨迹为速度奖励其中， Vconst为期望的运动速度； ti表示时间序列， i ＝1,2…m。 9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1 ‑8任一项所述的方法。 10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1‑8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115545219 A 3

专利 强化学习中三维形变体的状态和奖励稳定数值的获取方法

专利强化学习中三维形变体的状态和奖励稳定数值的获取方法