专利 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210460015.0 (22)申请日 2022.04.28 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人蔡英凤　汪梓豪　陈龙　廉玉波　钟益林　王海　袁朝春　孙晓强　何友国　 (74)专利代理机构南京智造力知识产权代理有限公司 32382 专利代理师王军丽 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/73(2017.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置 (57)摘要本发明公开了一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置，自车运动估计和预测部分建立了完整车辆视觉里程计，实现对自车运动的独立建模。其次，所提出的目标轨迹初始化方法基于所建立的视觉里程计和深度图信息，将不同时刻的目标边界框坐标归一化到当前时刻。自车运动估计和预测模型完成了对目标运动与自车运动的解耦。最后，在未来轨迹预测部分使用归一化的轨迹坐标，在自车当前相机视角下完成对目标未来轨迹的预测。模型各阶段训练时所需数据包括车载相机拍摄的视频序列以及该序列内各目标的位置信息和身份信息。权利要求书5页说明书7页附图3页 CN 114820708 A 2022.07.29 CN 114820708 A 1.一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，包括： S1：建立自车视觉里程计，完成对自车运动的独立建模； S2：构建自车运动估计网络，包括深度估计网络和位姿估计网络，深度估计网络输出当前帧图像It的深度位姿估计网络预测变换矩阵Tt′ →t和车载相机的内参矩阵将t′时刻的图像It′中的所有像素投影到t时刻像素坐标系中对应的位置，重建出 t时刻的图像It′ →t； S3：构建自车运动预测网络，采用LSTM编解码器结构； S4：目标轨迹的归一化 S5：建立轨迹预测网络，预测未来轨迹。 2.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，所述S1的具体过程包括：将视频分解为由多帧图像组成的图像序列，则每一帧图像中拍摄到的目标均处于当前时刻自车的相机坐标系内，车辆在行驶过程中，车辆运动方向和位置的改变会造成相机坐标系的连续变换，即车辆位姿变换，自车运动估计的目的是计算自车所处的历史帧t ‑h， ...， t‑1与当前帧t之间的位姿变换，并预测自车所处的未来帧 t+1， ...， t+f与t之间的位姿变换，将帧间变换过程可视作两帧的相机坐标系绕轴a旋转θ，该过程可用变换矩阵Tt→t′表示：式中： t′∈[t‑h， t‑1]∪[t+1， t+f]； R∈SO(3)是旋转矩阵，且是相机坐标轴原点的偏移量。 3.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，所述S2中，重建出t时刻的图像It′ →t的具体方法： It′ →t＝proj(It) proj： pt＝KTt′ →tDtK‑1pt′ 式中： proj为重投影操作， pt和pt′分别为t和t ′时刻图像中各像素坐标。 4.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，所述S2 中，深度估计网络为编解码器结构，其中深度编码器DEnc输入为当前帧图像It，通过ResNet‑18结构提取出图像特征信息Ft，将Ft输入到深度解码器DDec中， DDec将计算出当前帧图像中各像素位置的深度D， D的值域为(0.1， 100)， 0.1为一个深度单位，深度值上限为100，该过程表示为： Ft＝DEnc(It) Dt＝DDec(Ft) 位姿估计网络同为编解码器结构，位姿编码器PEnc与DEnc使用相同的ResNet ‑18网络结构作为特征提取器， PEnc的输入为t时刻和t+1、 t ‑1时刻图像组成的图像序列Shist＝{It‑1， It} or{It， It+1}，首先，通过级联操作将Shist的通道维进行合并，得到与匹配于PEnc输入维度的 PEnc模型输出为32倍下采样后的高维度特征图位姿解码器PDec由多层卷积与激活函数ReLU堆叠而成，解码器输出通道数为6，分别代表轴角φt→t′∈so(3)，和偏移量分解φt→t′得到旋转轴a和旋转角度 θ：权　利　要　求　书 1/5 页 2 CN 114820708 A 2根据罗德里格斯公式来计算so(3)到SO(3)之间的指数映射，再结合偏移量d得到位姿变换矩阵T： Tt+1→t＝Combine(R， d) R＝exp(φ^)＝exp( θ a^) exp( θ a^)＝cosθ E+(1+cosθ )a aT+sinθ a^ 式中： ^是反对称符号，最终得到的位姿变换矩阵T表示It+1的相机坐标系到It的相机坐标系之间的变换。 5.根据权利要求4所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，所述自车运动估计网络在训练过程中，从历史时刻t ‑h+1到未来时刻t+f ‑1之间的图像序列将与相邻帧共同输入到多个共享权重的位姿估计编解码器中进行计算，最终得到该序列完整的视觉里程计VO＝{Tt‑h+1→t‑h， ...， Tt+f→t+f‑1}。 6.根据权利要求4所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，所述S3中， LSTM编码器的输入为位姿解码器PDec输出的历史时刻部分的φ， d序列 Seqφ， d＝{(φt‑h， dt‑h)， ...， (φt‑1， dt‑1)}： Femb＝LeakyReLU(f1(Seqφ， d)) Ot， (φ， d)， Ht， (φ， d)＝LSTM([Ht‑1， (φ， d)， Femb]， Wenc) 式中： f1为线性层，该层作为嵌入层(embedding)，用于将输入序列的低维特征映射到高维， LeakyReLU是激活函数， α ＝0.1，该部分取最后一个时步的隐藏状态Ht， ( θ， d)作为总结历史位姿的特征向量； LSTM解码器采用非自回归(NAR)的方式对Ht， (φ， d)进行解码，输出预测的未来自车运动： Ot， Ht＝LSTM([Ht‑1， Ht， (φ， d)]， Wdec) φpred， dpred＝f(Ot) 式中： f2为线性层，该层输出即为预测的未来各时步的旋转轴和原点偏移量φpred， dpred ＝{(φt+1， dt+1)， ...， (φt+f， dt+f)}，最后使用公式将φpred， dpred转化为位姿变换矩阵Tpred。 7.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法，其特征在于，所述S4的具体过程：计算当前时刻t的相机坐标系与其他所有时刻t ′的相机坐标系之间的位姿变换矩阵集合{Tt→t′， t′∈[t‑h， t+f]}，最终预测目标未来轨迹预测的视角将是t时刻相机所处的视角，所以，在将任意t ′时刻的目标历史边界框Bt′输入到预测模型之前，需要把边界框Bt′中角点像素坐标(ptl， pbr)t′转换到t时刻的像素坐标，构成新的边界框 t′时刻边界框Bt′中的任意角点坐标pt′转换为t时刻的坐标可表示为：权　利　要　求　书 2/5 页 3 CN 114820708 A 3

专利 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置

专利一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置