(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210780438.0
(22)申请日 2022.07.05
(65)同一申请的已公布的文献号
申请公布号 CN 114842085 A
(43)申请公布日 2022.08.02
(73)专利权人 松立控股集团股份有限公司
地址 266000 山东省青岛市 市南区宁 夏路
288号软件园6号楼1 1层
(72)发明人 刘寒松 王永 王国强 刘瑞
翟贵乾 李贤超 焦安健 谭连胜
董玉超
(74)专利代理 机构 青岛高晓专利事务所(普通
合伙) 37104
专利代理师 黄晓敏
(51)Int.Cl.
G06T 7/73(2017.01)G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
(56)对比文件
CN 113792669 A,2021.12.14
CN 114663917 A,202 2.06.24
Zhihong Wu等.D ST3D: DLA-Sw in
Transformer for Si ngle-Sta ge Monocular 3D
Object Detecti on. 《2022 IEEE Intelligent
Vehicles Symposium (IV)》 .202 2,
Zinan Xiong 等.SW IN-POSE: SW IN
TRANSFORM ER BASED HUMAN POSE ESTIMATION.
《arXiv:2 201.07384v1》 .202 2,
审查员 欧晓丹
(54)发明名称
一种全场景 车辆姿态估计方法
(57)摘要
本发明属于车辆姿态估计技术领域, 涉及一
种全场景车辆姿态估计方法 , 引入Swin
Transformer作为主干网络, 并针对车辆姿态估
计任务的特性优化网络结构, 先将原始图像信息
压缩成关键点紧凑的位置序列, 把车辆姿态估计
任务转化为编码任务, 并通过计算注 意力分数得
到关键点依赖项, 预测最终的关键点位置, 提高
了计算效率, 线性计算复杂度低, 解决了遮挡问
题, 在检测精度与速度之间取得了较好平衡, 具
有较高的实际应用价 值。
权利要求书1页 说明书4页 附图2页
CN 114842085 B
2022.09.16
CN 114842085 B
1.一种全场景 车辆姿态估计方法, 其特 征在于, 包括如下步骤:
(1) 数据集构建:
选取开源数据集中的车辆图像, 并收集交通监控、 停车场中含有多种车辆的图像, 构建
车辆数据集, 并将车辆数据集划分为训练集、 验证集和 测试集;
(2) 图像分割: 车辆数据集中的图像通过片分割模块被分割为不重叠的图像片, 每个图
像片看作是一个标记, 特 征为输入图像的串联RGB值;
(3) 主干网络分层特征提取: 步骤 (2) 得到的图像片标记首先经过主干网络第一阶段的
线性嵌入层, 特征维度变为一个随机维度C, 随后经过两个嵌入层以及第二阶段进 行分层特
征提取, 得到特 征图;
(4) 位置编码: 将步骤 (3) 得到的特征图输入到位置编码层中进行位置编码, 特征图通
过
卷积或一个线性层被展平为
个
维的向量, 这些向量经过四个注意力层和
前馈神经网络后输出 特征向量, 其中H和W分别为图像的高和宽;
(5) 生成关键点热图: 将 步骤 (4) 得到的特征向量重塑回
, 然后将通道维
数从
降到K, 生成K个关键点热图, 其中K为每 个车辆的关键点数量, 值 为78;
(6) 输出结果: 将关键点热图经过非极大值抑制到关键点坐标, 并在原始图像 中标注关
键点的位置, 实现全场景 车辆的姿态估计。
2.根据权利要求1所述全场景车辆姿态估计方法, 其特征在于, 步骤 (1) 中所述车辆图
像中每个车辆定义78个关键点, 并标注车辆的边界框与类别。
3.根据权利要求2所述全场景车辆姿态估计方法, 其特征在于, 步骤 (2) 中每个 图像片
的大小为
, 特征维度为
。
4.根据权利要求3所述全场景车辆姿态估计方法, 其特征在于, 步骤 (3) 所述主干网络
采用Swin Transformer主干网络, 第一阶段包括一个线性嵌入层和两个Swin Transformer
块, 两个Swin Transformer块的标记数量为
, 其中H和W为输入图像的高和宽; 第二阶
段包括一个线性合并层和两个Swin Transformer 块, 经过第一阶段提取特征后的图像片通
过线性合并层减少标记, 线性合并层将每组
相邻块的特征进行连接, 将一个线性层作
用在维度为
的连接特征上, 将标记的数量减少4倍, 输出维度变成
, 接着通过两
个Swin Transformer块进行 特征变换, 得到的图像分辨 率为
, 实现分层特 征提取。
5.根据权利要求4所述全场景车辆姿态估计方法, 其特征在于, 步骤 (4) 所述位置编码
层采用标准Tr ansformer架构的编码器, 位置编码层将特征图看作是由特定图像内容确 定
的动态权值, 对正向传播中的信息流进行重新加权, 通过计算最后一个注意力层的分数得
到关键点依赖项, 图像中某个位置注意力 分数数值越高, 表示对预测关键点的贡献程度越
大, 通过关键点的依赖项预测被遮挡的关键点。权 利 要 求 书 1/1 页
2
CN 114842085 B
2一种全场景车辆姿态估计方 法
技术领域
[0001]本发明属于车辆姿态估计技术领域, 涉及一种全场景车辆姿态估计方法, 通过机
器视觉及深度学习技 术, 对车辆关键点进行检测。
背景技术
[0002]自动驾驶前景广阔, 是未来汽车发展趋势, 自动驾驶的发展需要车辆有能力对周
围环境进 行明确的判断, 进而选择正确的行车路线与行车行为, 辅助驾驶员进 行车辆操控,
现实中的驾驶场景复杂多变, 每种复杂的场景下需要不同的应对措施, 车辆姿态估计作为
自动驾驶技术中重要的任务, 旨在从 图像或视频中定位出车辆的关键点, 帮助判断周围车
辆的行驶状态。
[0003]目前, 车辆姿态估计面临的主要挑战是遮挡问题, 无论在何种驾驶场景中, 遮挡问
题都是存在的, 比如车辆与车辆之间的遮挡、 行人与车辆之间的遮挡以及其他物体与车辆
之间的遮挡, 但是现有的车辆姿态估计方法难以识别遮挡场景下 的车辆姿态, 因此亟需一
种面向全场景的车辆姿态估计方法。
[0004]卷积神经网络在姿态估计领域取得了优异的性能, 大多的工作将深度卷积神经网
络看做一个强大 的黑盒预测器, 然而对于它如何捕捉部件之间的空间关系仍然不清楚, 从
科学和实际应用的观 点出发, 模型的可解释性可以帮助理解模型如何关联变量以达到最 终
的预测, 以及 姿态估计算法如何处理各种输入图像, Transformer 可以捕获长距离关系, 揭
示车辆姿态估计任务中关键点之间的依赖关系。
[0005]自从Transformer出现以来, 其较高的计算效率和可扩展性使其在自然语言处理
中占据了主导地位, 是一种主要基于 自注意力机制的深层神经网络, 而且由于其强大 的表
现能力, 研究人员正在寻找将Transformer应用于计算机视觉任务的方法, 在各种视觉基准
测试中, 基于Tr ansformer的模型的性能与其他类型的网络 (如卷积网络和递归网络) 相似
或更好, 但是目前还未 见将该模型用于车辆姿态估计中的公开报道和使用。
发明内容
[0006]本发明的目的在于克服现有技术存在的缺点, 设计提供一种全场景车辆姿态估计
方法, 实现高效的车辆姿态估计, 将Swin Transformer作为特征提取的骨干网络, 使用
Transformer编码器将特征图信息编码为关键点的位置表示, 通过计算注意力分数得到关
键点依赖项, 预测最终的关键点 位置, 有效解决车辆遮挡问题, 实现全场景 车辆姿态估计。
[0007]为实现上述 目的, 本发明引入Swin Transformer作为主干网络, 并针对车辆姿态
估计任务的特性优化网络结构, 先将原始图像信息压缩成关键点紧凑的位置序列, 把车辆
姿态估计任务转化为编码任务, 并通过计算注意力 分数得到关键点依赖项, 预测最终的关
键点位置, 具体过程包括如下步骤:
[0008](1) 数据集构建:
[0009]选取开源数据集中的车辆图像, 并收集交通监控、 停 车场中含有多种车辆的图像,说 明 书 1/4 页
3
CN 114842085 B
3
专利 一种全场景车辆姿态估计方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 09:46:23上传分享