iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210780438.0 (22)申请日 2022.07.05 (65)同一申请的已公布的文献号 申请公布号 CN 114842085 A (43)申请公布日 2022.08.02 (73)专利权人 松立控股集团股份有限公司 地址 266000 山东省青岛市 市南区宁 夏路 288号软件园6号楼1 1层 (72)发明人 刘寒松 王永 王国强 刘瑞  翟贵乾 李贤超 焦安健 谭连胜  董玉超  (74)专利代理 机构 青岛高晓专利事务所(普通 合伙) 37104 专利代理师 黄晓敏 (51)Int.Cl. G06T 7/73(2017.01)G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (56)对比文件 CN 113792669 A,2021.12.14 CN 114663917 A,202 2.06.24 Zhihong Wu等.D ST3D: DLA-Sw in Transformer for Si ngle-Sta ge Monocular 3D Object Detecti on. 《2022 IEEE Intelligent Vehicles Symposium (IV)》 .202 2, Zinan Xiong 等.SW IN-POSE: SW IN TRANSFORM ER BASED HUMAN POSE ESTIMATION. 《arXiv:2 201.07384v1》 .202 2, 审查员 欧晓丹 (54)发明名称 一种全场景 车辆姿态估计方法 (57)摘要 本发明属于车辆姿态估计技术领域, 涉及一 种全场景车辆姿态估计方法 , 引入Swin   Transformer作为主干网络, 并针对车辆姿态估 计任务的特性优化网络结构, 先将原始图像信息 压缩成关键点紧凑的位置序列, 把车辆姿态估计 任务转化为编码任务, 并通过计算注 意力分数得 到关键点依赖项, 预测最终的关键点位置, 提高 了计算效率, 线性计算复杂度低, 解决了遮挡问 题, 在检测精度与速度之间取得了较好平衡, 具 有较高的实际应用价 值。 权利要求书1页 说明书4页 附图2页 CN 114842085 B 2022.09.16 CN 114842085 B 1.一种全场景 车辆姿态估计方法, 其特 征在于, 包括如下步骤: (1) 数据集构建: 选取开源数据集中的车辆图像, 并收集交通监控、 停车场中含有多种车辆的图像, 构建 车辆数据集, 并将车辆数据集划分为训练集、 验证集和 测试集; (2) 图像分割: 车辆数据集中的图像通过片分割模块被分割为不重叠的图像片, 每个图 像片看作是一个标记, 特 征为输入图像的串联RGB值; (3) 主干网络分层特征提取: 步骤 (2) 得到的图像片标记首先经过主干网络第一阶段的 线性嵌入层, 特征维度变为一个随机维度C, 随后经过两个嵌入层以及第二阶段进 行分层特 征提取, 得到特 征图; (4) 位置编码: 将步骤 (3) 得到的特征图输入到位置编码层中进行位置编码, 特征图通 过 卷积或一个线性层被展平为 个 维的向量, 这些向量经过四个注意力层和 前馈神经网络后输出 特征向量, 其中H和W分别为图像的高和宽; (5) 生成关键点热图: 将 步骤 (4) 得到的特征向量重塑回 , 然后将通道维 数从 降到K, 生成K个关键点热图, 其中K为每 个车辆的关键点数量, 值 为78; (6) 输出结果: 将关键点热图经过非极大值抑制到关键点坐标, 并在原始图像 中标注关 键点的位置, 实现全场景 车辆的姿态估计。 2.根据权利要求1所述全场景车辆姿态估计方法, 其特征在于, 步骤 (1) 中所述车辆图 像中每个车辆定义78个关键点, 并标注车辆的边界框与类别。 3.根据权利要求2所述全场景车辆姿态估计方法, 其特征在于, 步骤 (2) 中每个 图像片 的大小为 , 特征维度为 。 4.根据权利要求3所述全场景车辆姿态估计方法, 其特征在于, 步骤 (3) 所述主干网络 采用Swin  Transformer主干网络, 第一阶段包括一个线性嵌入层和两个Swin  Transformer 块, 两个Swin  Transformer块的标记数量为 , 其中H和W为输入图像的高和宽; 第二阶 段包括一个线性合并层和两个Swin  Transformer 块, 经过第一阶段提取特征后的图像片通 过线性合并层减少标记, 线性合并层将每组 相邻块的特征进行连接, 将一个线性层作 用在维度为 的连接特征上, 将标记的数量减少4倍, 输出维度变成 , 接着通过两 个Swin Transformer块进行 特征变换, 得到的图像分辨 率为 , 实现分层特 征提取。 5.根据权利要求4所述全场景车辆姿态估计方法, 其特征在于, 步骤 (4) 所述位置编码 层采用标准Tr ansformer架构的编码器, 位置编码层将特征图看作是由特定图像内容确 定 的动态权值, 对正向传播中的信息流进行重新加权, 通过计算最后一个注意力层的分数得 到关键点依赖项, 图像中某个位置注意力 分数数值越高, 表示对预测关键点的贡献程度越 大, 通过关键点的依赖项预测被遮挡的关键点。权 利 要 求 书 1/1 页 2 CN 114842085 B 2一种全场景车辆姿态估计方 法 技术领域 [0001]本发明属于车辆姿态估计技术领域, 涉及一种全场景车辆姿态估计方法, 通过机 器视觉及深度学习技 术, 对车辆关键点进行检测。 背景技术 [0002]自动驾驶前景广阔, 是未来汽车发展趋势, 自动驾驶的发展需要车辆有能力对周 围环境进 行明确的判断, 进而选择正确的行车路线与行车行为, 辅助驾驶员进 行车辆操控, 现实中的驾驶场景复杂多变, 每种复杂的场景下需要不同的应对措施, 车辆姿态估计作为 自动驾驶技术中重要的任务, 旨在从 图像或视频中定位出车辆的关键点, 帮助判断周围车 辆的行驶状态。 [0003]目前, 车辆姿态估计面临的主要挑战是遮挡问题, 无论在何种驾驶场景中, 遮挡问 题都是存在的, 比如车辆与车辆之间的遮挡、 行人与车辆之间的遮挡以及其他物体与车辆 之间的遮挡, 但是现有的车辆姿态估计方法难以识别遮挡场景下 的车辆姿态, 因此亟需一 种面向全场景的车辆姿态估计方法。 [0004]卷积神经网络在姿态估计领域取得了优异的性能, 大多的工作将深度卷积神经网 络看做一个强大 的黑盒预测器, 然而对于它如何捕捉部件之间的空间关系仍然不清楚, 从 科学和实际应用的观 点出发, 模型的可解释性可以帮助理解模型如何关联变量以达到最 终 的预测, 以及 姿态估计算法如何处理各种输入图像, Transformer  可以捕获长距离关系, 揭 示车辆姿态估计任务中关键点之间的依赖关系。 [0005]自从Transformer出现以来, 其较高的计算效率和可扩展性使其在自然语言处理 中占据了主导地位, 是一种主要基于 自注意力机制的深层神经网络, 而且由于其强大 的表 现能力, 研究人员正在寻找将Transformer应用于计算机视觉任务的方法, 在各种视觉基准 测试中, 基于Tr ansformer的模型的性能与其他类型的网络 (如卷积网络和递归网络) 相似 或更好, 但是目前还未 见将该模型用于车辆姿态估计中的公开报道和使用。 发明内容 [0006]本发明的目的在于克服现有技术存在的缺点, 设计提供一种全场景车辆姿态估计 方法, 实现高效的车辆姿态估计, 将Swin  Transformer作为特征提取的骨干网络, 使用 Transformer编码器将特征图信息编码为关键点的位置表示, 通过计算注意力分数得到关 键点依赖项, 预测最终的关键点 位置, 有效解决车辆遮挡问题, 实现全场景 车辆姿态估计。 [0007]为实现上述 目的, 本发明引入Swin  Transformer作为主干网络, 并针对车辆姿态 估计任务的特性优化网络结构, 先将原始图像信息压缩成关键点紧凑的位置序列, 把车辆 姿态估计任务转化为编码任务, 并通过计算注意力 分数得到关键点依赖项, 预测最终的关 键点位置, 具体过程包括如下步骤: [0008](1) 数据集构建: [0009]选取开源数据集中的车辆图像, 并收集交通监控、 停 车场中含有多种车辆的图像,说 明 书 1/4 页 3 CN 114842085 B 3

.PDF文档 专利 一种全场景车辆姿态估计方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种全场景车辆姿态估计方法 第 1 页 专利 一种全场景车辆姿态估计方法 第 2 页 专利 一种全场景车辆姿态估计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:46:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。