iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210460015.0 (22)申请日 2022.04.28 (71)申请人 江苏大学 地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人 蔡英凤 汪梓豪 陈龙 廉玉波  钟益林 王海 袁朝春 孙晓强  何友国  (74)专利代理 机构 南京智造力知识产权代理有 限公司 32382 专利代理师 王军丽 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/73(2017.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于单目视觉运动估计的周边多目标 轨迹预测方法、 模型训练方法及装置 (57)摘要 本发明公开了一种基于单目视觉运动估计 的周边多目标轨迹预测方法、 模 型训练方法及装 置, 自车运动估计和预测部分建立了完整车辆视 觉里程计, 实现对自车运动的独立建模。 其次, 所 提出的目标轨迹初始化方法基于所建立的视觉 里程计和深度图信息, 将不同时刻的目标边界框 坐标归一化到当前时刻。 自车运动估计和预测模 型完成了对目标运动与 自车运动的解耦。 最后, 在未来轨迹预测部分使用归一化的轨迹坐标, 在 自车当前相机视角下完成对目标未来轨迹的预 测。 模型各阶段训练时所需数据包括车载相机拍 摄的视频序列以及该序列内各目标的位置信息 和身份信息 。 权利要求书5页 说明书7页 附图3页 CN 114820708 A 2022.07.29 CN 114820708 A 1.一种基于单目视 觉运动估计的周边多目标轨 迹预测方法, 其特 征在于, 包括: S1: 建立自车视 觉里程计, 完成对自车运动的独立建模; S2: 构建自车运动估计网络, 包括深度估计网络和位姿估计网络, 深度估计网络输出当 前帧图像It的深度 位姿估计网络预测变换矩阵Tt′ →t和车载相机的内参矩阵 将t′时刻的图像It′中的所有像素投影到t时刻像素坐标系中对应的位置, 重 建出 t时刻的图像It′ →t; S3: 构建自车运动预测网络, 采用LSTM编解码器结构; S4: 目标轨 迹的归一 化 S5: 建立轨 迹预测网络, 预测未来轨 迹。 2.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法, 其 特征在于, 所述S1的具体过程包括: 将 视频分解为由多帧图像组成的图像序列, 则每一帧图 像中拍摄到的目标均处于当前时刻自车 的相机坐标系内, 车辆在行驶过程中, 车辆运动方 向和位置的改变会造成相 机坐标系的连续变换, 即车辆位姿变换, 自车运动估计的目的是 计算自车所处的历史帧t ‑h, ..., t‑1与当前帧t之间的位姿变换, 并预测自车所 处的未来帧 t+1, ..., t+f与t之间的位姿变换, 将帧间变换过程可视作两帧的相机坐标系绕轴a旋转θ, 该过程可用变换矩阵Tt→t′表示: 式中: t′∈[t‑h, t‑1]∪[t+1, t+f]; R∈SO(3)是旋转矩阵, 且 是相机坐标轴原点的偏移量。 3.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法, 其 特征在于, 所述S2中, 重建出t时刻的图像It′ →t的具体方法: It′ →t=proj(It) proj: pt=KTt′ →tDtK‑1pt′ 式中: proj为重投影操作, pt和pt′分别为t和t ′时刻图像中各像素坐标。 4.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法, 其 特征在于, 所述S2 中, 深度估计网络为编解码器结构, 其中深度编码器DEnc输入为当前帧图 像It, 通过ResNet‑18结构提取出图像特征信息Ft, 将Ft输入到深度解码器DDec中, DDec将计算 出当前帧图像中各像素位置的深度D, D的值域为(0.1, 100), 0.1为一个深度单位, 深度值上 限为100, 该过程表示 为: Ft=DEnc(It) Dt=DDec(Ft) 位姿估计网络同为编解码器结构, 位姿编码器PEnc与DEnc使用相同的ResNet ‑18网络结 构作为特征提取器, PEnc的输入为t时刻和t+1、 t ‑1时刻图像组成的图像序列Shist={It‑1, It} or{It, It+1}, 首先, 通过级联操作将Shist的通道维进行合并, 得到与 匹配于PEnc输入维度的 PEnc模型输出为32倍下采样后的高维度特征图 位姿解码器PDec由多层 卷积与激活函数ReLU堆叠而成, 解码器输出通道数为6, 分别代表轴角φt→t′∈so(3), 和 偏移量 分解φt→t′得到旋转轴a和旋转角度 θ: 权 利 要 求 书 1/5 页 2 CN 114820708 A 2根据罗德里格斯公式来计算so(3)到SO(3)之间的指数映射, 再结合偏移量d得到位姿 变换矩阵T: Tt+1→t=Combine(R, d) R=exp(φ^)=exp( θ a^) exp( θ a^)=cosθ E+(1+cosθ )a aT+sinθ a^ 式中: ^是反对称符号, 最终得到的位姿变换矩阵T表示It+1的相机坐标系 到It的相机坐 标系之间的变换。 5.根据权利要求4所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法, 其 特征在于, 所述自车运动估计网络在训练过程中, 从历史时刻t ‑h+1到未来时刻t+f ‑1之间 的图像序列将与相邻帧共同输入到多个共享权重的位姿估计编解码 器中进行计算, 最终得 到该序列完整的视 觉里程计VO={Tt‑h+1→t‑h, ..., Tt+f→t+f‑1}。 6.根据权利要求4所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法, 其 特征在于, 所述S3中, LSTM编码器的输入为位姿解码 器PDec输出的历史 时刻部分的φ, d序列 Seqφ, d={(φt‑h, dt‑h), ..., (φt‑1, dt‑1)}: Femb=LeakyReLU(f1(Seqφ, d)) Ot, (φ, d), Ht, (φ, d)=LSTM([Ht‑1, (φ, d), Femb], Wenc) 式中: f1为线性层, 该层作为嵌入层(embedding), 用于将输入序列的低维特征映射到高 维, LeakyReLU是激活函数, α =0.1, 该部分取最后一个时步的隐藏状态Ht, ( θ, d)作为总结历 史位姿的特 征向量; LSTM解码器采用非自回归(NAR)的方式对Ht, (φ, d)进行解码, 输出 预测的未来自车运动: Ot, Ht=LSTM([Ht‑1, Ht, (φ, d)], Wdec) φpred, dpred=f(Ot) 式中: f2为线性层, 该层输出即为预测的未来各时步的旋转轴和原点偏移量φpred, dpred ={(φt+1, dt+1), ..., (φt+f, dt+f)}, 最后使用公式 将φpred, dpred转化为位姿变换 矩阵Tpred。 7.根据权利要求1所述的一种基于单目视觉运动估计的周边多目标轨迹预测方法, 其 特征在于, 所述S4的具体过程: 计算当前时刻t的相机坐标系与其他所有时刻t ′的相机坐标系之间的位姿变换矩阵集 合{Tt→t′, t′∈[t‑h, t+f]}, 最终预测目标未来轨迹预测的视角将是t时刻相机所处的视角, 所以, 在将任意t ′时刻的目标历史边界框Bt′输入到预测模型之前, 需要把边界框Bt′中角点 像素坐标(ptl, pbr)t′转换到t时刻的像素坐标, 构成新的边界框 t′时刻边界框Bt′中的任意角点 坐标pt′转换为t时刻的坐标 可表示为: 权 利 要 求 书 2/5 页 3 CN 114820708 A 3

.PDF文档 专利 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置 第 1 页 专利 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置 第 2 页 专利 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:47:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。