专利 一种全场景车辆姿态估计方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210780438.0 (22)申请日 2022.07.05 (65)同一申请的已公布的文献号申请公布号 CN 114842085 A (43)申请公布日 2022.08.02 (73)专利权人松立控股集团股份有限公司地址 266000 山东省青岛市市南区宁夏路 288号软件园6号楼1 1层 (72)发明人刘寒松　王永　王国强　刘瑞　翟贵乾　李贤超　焦安健　谭连胜　董玉超　 (74)专利代理机构青岛高晓专利事务所(普通合伙) 37104 专利代理师黄晓敏 (51)Int.Cl. G06T 7/73(2017.01)G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (56)对比文件 CN 113792669 A,2021.12.14 CN 114663917 A,202 2.06.24 Zhihong Wu等.D ST3D: DLA-Sw in Transformer for Si ngle-Sta ge Monocular 3D Object Detecti on. 《2022 IEEE Intelligent Vehicles Symposium (IV)》 .202 2, Zinan Xiong 等.SW IN-POSE: SW IN TRANSFORM ER BASED HUMAN POSE ESTIMATION. 《arXiv:2 201.07384v1》 .202 2, 审查员欧晓丹 (54)发明名称一种全场景车辆姿态估计方法 (57)摘要本发明属于车辆姿态估计技术领域，涉及一种全场景车辆姿态估计方法，引入Swin Transformer作为主干网络，并针对车辆姿态估计任务的特性优化网络结构，先将原始图像信息压缩成关键点紧凑的位置序列，把车辆姿态估计任务转化为编码任务，并通过计算注意力分数得到关键点依赖项，预测最终的关键点位置，提高了计算效率，线性计算复杂度低，解决了遮挡问题，在检测精度与速度之间取得了较好平衡，具有较高的实际应用价值。权利要求书1页说明书4页附图2页 CN 114842085 B 2022.09.16 CN 114842085 B 1.一种全场景车辆姿态估计方法，其特征在于，包括如下步骤：（1）数据集构建：选取开源数据集中的车辆图像，并收集交通监控、停车场中含有多种车辆的图像，构建车辆数据集，并将车辆数据集划分为训练集、验证集和测试集；（2）图像分割：车辆数据集中的图像通过片分割模块被分割为不重叠的图像片，每个图像片看作是一个标记，特征为输入图像的串联RGB值；（3）主干网络分层特征提取：步骤（2）得到的图像片标记首先经过主干网络第一阶段的线性嵌入层，特征维度变为一个随机维度C，随后经过两个嵌入层以及第二阶段进行分层特征提取，得到特征图；（4）位置编码：将步骤（3）得到的特征图输入到位置编码层中进行位置编码，特征图通过卷积或一个线性层被展平为个维的向量，这些向量经过四个注意力层和前馈神经网络后输出特征向量，其中H和W分别为图像的高和宽；（5）生成关键点热图：将步骤（4）得到的特征向量重塑回，然后将通道维数从降到K，生成K个关键点热图，其中K为每个车辆的关键点数量，值为78；（6）输出结果：将关键点热图经过非极大值抑制到关键点坐标，并在原始图像中标注关键点的位置，实现全场景车辆的姿态估计。 2.根据权利要求1所述全场景车辆姿态估计方法，其特征在于，步骤（1）中所述车辆图像中每个车辆定义78个关键点，并标注车辆的边界框与类别。 3.根据权利要求2所述全场景车辆姿态估计方法，其特征在于，步骤（2）中每个图像片的大小为，特征维度为。 4.根据权利要求3所述全场景车辆姿态估计方法，其特征在于，步骤（3）所述主干网络采用Swin Transformer主干网络，第一阶段包括一个线性嵌入层和两个Swin Transformer 块，两个Swin Transformer块的标记数量为，其中H和W为输入图像的高和宽；第二阶段包括一个线性合并层和两个Swin Transformer 块，经过第一阶段提取特征后的图像片通过线性合并层减少标记，线性合并层将每组相邻块的特征进行连接，将一个线性层作用在维度为的连接特征上，将标记的数量减少4倍，输出维度变成，接着通过两个Swin Transformer块进行特征变换，得到的图像分辨率为，实现分层特征提取。 5.根据权利要求4所述全场景车辆姿态估计方法，其特征在于，步骤（4）所述位置编码层采用标准Tr ansformer架构的编码器，位置编码层将特征图看作是由特定图像内容确定的动态权值，对正向传播中的信息流进行重新加权，通过计算最后一个注意力层的分数得到关键点依赖项，图像中某个位置注意力分数数值越高，表示对预测关键点的贡献程度越大，通过关键点的依赖项预测被遮挡的关键点。权　利　要　求　书 1/1 页 2 CN 114842085 B 2一种全场景车辆姿态估计方法技术领域 [0001]本发明属于车辆姿态估计技术领域，涉及一种全场景车辆姿态估计方法，通过机器视觉及深度学习技术，对车辆关键点进行检测。背景技术 [0002]自动驾驶前景广阔，是未来汽车发展趋势，自动驾驶的发展需要车辆有能力对周围环境进行明确的判断，进而选择正确的行车路线与行车行为，辅助驾驶员进行车辆操控，现实中的驾驶场景复杂多变，每种复杂的场景下需要不同的应对措施，车辆姿态估计作为自动驾驶技术中重要的任务，旨在从图像或视频中定位出车辆的关键点，帮助判断周围车辆的行驶状态。 [0003]目前，车辆姿态估计面临的主要挑战是遮挡问题，无论在何种驾驶场景中，遮挡问题都是存在的，比如车辆与车辆之间的遮挡、行人与车辆之间的遮挡以及其他物体与车辆之间的遮挡，但是现有的车辆姿态估计方法难以识别遮挡场景下的车辆姿态，因此亟需一种面向全场景的车辆姿态估计方法。 [0004]卷积神经网络在姿态估计领域取得了优异的性能，大多的工作将深度卷积神经网络看做一个强大的黑盒预测器，然而对于它如何捕捉部件之间的空间关系仍然不清楚，从科学和实际应用的观点出发，模型的可解释性可以帮助理解模型如何关联变量以达到最终的预测，以及姿态估计算法如何处理各种输入图像， Transformer 可以捕获长距离关系，揭示车辆姿态估计任务中关键点之间的依赖关系。 [0005]自从Transformer出现以来，其较高的计算效率和可扩展性使其在自然语言处理中占据了主导地位，是一种主要基于自注意力机制的深层神经网络，而且由于其强大的表现能力，研究人员正在寻找将Transformer应用于计算机视觉任务的方法，在各种视觉基准测试中，基于Tr ansformer的模型的性能与其他类型的网络（如卷积网络和递归网络）相似或更好，但是目前还未见将该模型用于车辆姿态估计中的公开报道和使用。发明内容 [0006]本发明的目的在于克服现有技术存在的缺点，设计提供一种全场景车辆姿态估计方法，实现高效的车辆姿态估计，将Swin Transformer作为特征提取的骨干网络，使用 Transformer编码器将特征图信息编码为关键点的位置表示，通过计算注意力分数得到关键点依赖项，预测最终的关键点位置，有效解决车辆遮挡问题，实现全场景车辆姿态估计。 [0007]为实现上述目的，本发明引入Swin Transformer作为主干网络，并针对车辆姿态估计任务的特性优化网络结构，先将原始图像信息压缩成关键点紧凑的位置序列，把车辆姿态估计任务转化为编码任务，并通过计算注意力分数得到关键点依赖项，预测最终的关键点位置，具体过程包括如下步骤： [0008]（1）数据集构建： [0009]选取开源数据集中的车辆图像，并收集交通监控、停车场中含有多种车辆的图像，说　明　书 1/4 页 3 CN 114842085 B 3

专利 一种全场景车辆姿态估计方法

专利一种全场景车辆姿态估计方法