专利 一种人机交互场景下多特征融合的沉浸度计算方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210663978.0 (22)申请日 2022.06.14 (71)申请人湖南大学地址 410082 湖南省长沙市岳麓区麓山南路1号 (72)发明人李树涛　宋启亚　孙斌　 (74)专利代理机构湖南兆弘专利事务所(普通合伙) 43008 专利代理师谭武艺 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 40/10(2022.01) G06V 40/16(2022.01) G06V 40/18(2022.01)G06V 40/70(2022.01) G06V 10/764(2022.01) G06T 7/73(2017.01) G06F 3/01(2006.01) (54)发明名称一种人机交互场景下多特征融合的沉浸度计算方法及系统 (57)摘要本发明公开了一种人机交互场景下多特征融合的沉浸度计算方法及系统，本发明方法包括：确定人机交互场景下从用户的实时图像提取得到的多种特征的序列，包含人机交互距离特征、人体姿态特征、头部姿态特征、面部姿态特征、眼部姿态特征以及唇部运动特征中的部分或者全部；对多种特征的序列进行联合表示，得到特征表示向量 Hde并通过分类器进行分类得到沉浸度。本发明能够实现人机交互场景下多特征融合的沉浸度计算，准确的评估人与机器人的交互意愿，可有效提升人机交互场景下的交互体验，且结合多种特征的时序信息，可有效提升用户的沉浸度计算的准确度，还可以进一步实现目标用户选择、机器人工作状态控制。权利要求书2页说明书8页附图3页 CN 114998700 A 2022.09.02 CN 114998700 A 1.一种人机交互场景下多特征融合的沉浸度计算方法，其特征在于，包括： 1）确定人机交互场景下从用户的实时图像提取得到的多种特征的序列，所述多种特征包含人机交互距离特征、人体姿态特征、头部姿态特征、面部姿态特征、眼部姿态特征以及唇部运动特征中的部分或者全部； 2）对多种特征的序列进行联合表示，得到特征表示向量 Hde； 3）将特征表示向量 Hde通过分类器进行分类，得到用户的沉浸度。 2.根据权利要求1所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤2）包括：分别将多种特征的序列进行标准化处理，使其维度相同并被归一化，构成特征数据X；将特征数据X送入门控循环时序网络 GRU对各个特征的序列进行时序建模，然后通过注意力层A tt选取输入层特征向量，得到融合后的特征表示向量 Hde。 3.根据权利要求1所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤3）中采用的分类器为多层感知机，其函数表达式为： P(Y) =sigmoid(MLP(Hde)) 上式中，P(Y)为得到的用户的沉浸度， sigmoid为归一化指数函数， MLP为多层感知机将特征表示向量 Hde回归到应的置信度数值。 4.根据权利要求1～3中任意一项所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤1）中的多种特征包含人机交互距离特征，且人机交互距离特征的计算函数表达式为：，上式中，f(di)为第i个用户的人机交互距离特征， xi,1和yi,1分别为第 i个用户的颈部特征点的三维空间坐标的x坐标和y坐标， xi,2和yi,2分别为第 i个用户的左肩部特征点的三维空间坐标的x坐标和y坐标， xi,5和yi,5分别为第 i个用户的右肩部特征点的三维空间坐标的x 坐标和y坐标，所述颈部特征点、左肩部特征点和右肩部特征点均为对人机交互场景下从用户的实时图像进行人体姿势估计得到，所述颈部特征点、左肩部特征点和右肩部特征点的三维空间坐标为基于点坐标及深度进行图像坐标系变换得到。 5.根据权利要求4所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤1）中的人体姿态特征包含人体方位角特征，且人体方位角特征的计算函数表达式为：，上式中，f(αi)为第i个用户的人体方位角特征， αi为第i个用户的人体方位角， xi,1和yi,1 分别为颈部特征点的三维空间坐标的x坐标和y坐标，所述颈部特征点为对人机交互场景下从用户的实时图像进行人体姿势估计得到，所述颈部特征点的三维空间坐标为基于点坐标及深度进行图像坐标系变换得到。 6.根据权利要求5所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤1）中的头部姿势特征的计算函数表达式为：，权　利　要　求　书 1/2 页 2 CN 114998700 A 2上式中，f(hi)为第i个用户的头部姿势特征， αi为第i个用户的人体方位角， βi为第i个用户的头部角度， xi,1和yi,1分别为颈部特征点的三维空间坐标的x坐标和y坐标， xi,k和yi,k 分别为任意第 k个鼻部特征点的三维空间坐标的x坐标和y坐标，所述颈部特征点、第 k个鼻部特征点均为对人机交互场景下从用户的实时图像进行人体姿势估计得到，所述颈部特征点、第k个鼻部特征点的三维空间坐标为基于点坐标及深度进行图像坐标系变换得到。 7.根据权利要求6所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤1）中的唇部运动特征的计算函数表达式为：，上式中，f(lari)为第i个用户的唇部运动特征， lari为第i个用户的唇部上下距离， σ 为判断唇部运动特征的阈值， lari大于等于阈值σ 时判定唇部为张开、唇部运动特征为1，反之判定唇部为闭合、且唇部运动特征为0，其中第 i个用户的唇部上下距离为对人机交互场景下从用户的实时图像进行唇部关键特征点定位，并基于定位得到的唇部关键特征点坐标计算得到。 8.根据权利要求1所述的人机交互场景下多特征融合的沉浸度计算方法，其特征在于，步骤3）之后还包括将用户的沉浸度与预设阈值进行比较的步骤，若用户的沉浸度小于设定阈值、且机器人当前处于人机交互状态，则暂停或退出机器人的人机交互状态；若用户的沉浸度大于或等于设定阈值、且机器人当前处于非人机交互状态，则首先判断检测到的用户数量，若用户数量大于1则选择沉浸度最高的用户作为目标用户，若用户数量等于1则选择该用户作为目标用户，然后唤醒机器人使其进入人机交互状态以用于与目标用户进行人机交互；机器人的传感系统在人机交互状态和非人机交互状态下均保持工作状态，机器人的运动系统仅在人机交互状态下处于工作状态、在非人机交互状态下处于非工作状态。 9.一种人机交互场景下多特征融合的沉浸度计算系统，包括相互连接的微处理器和存储器，其特征在于，该微处理器被编程或配置以执行权利要求1～8 中任意一项所述人机交互场景下多特征融合的沉浸度计算方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，该计算机程序用于被微处理器编程或配置以执行权利要求 1～8中任意一项所述人机交互场景下多特征融合的沉浸度计算方法的步骤。权　利　要　求　书 2/2 页 3 CN 114998700 A 3

专利 一种人机交互场景下多特征融合的沉浸度计算方法及系统

专利一种人机交互场景下多特征融合的沉浸度计算方法及系统