专利 基于偏振线索的玻璃图像分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210105325.0 (22)申请日 2022.01.28 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路２号 (72)发明人杨鑫　杨佳熙　梅海洋　魏小鹏　 (74)专利代理机构辽宁鸿文知识产权代理有限公司 21102 专利代理师苗青 (51)Int.Cl. G06T 7/11(2017.01) G06T 7/90(2017.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称基于偏振线索的玻璃图像分割方法 (57)摘要本发明属于计算机视觉中的场景分割领域，提供一种基于偏振线索的玻璃图像分割方法。 PGSNet先后包含早期动态注意模块、 Conformer 骨干网络、动态多模态特征集成模块和全局上下文引导解码模块， EDA模块计算AoLP和DoLP分别在三个不同波长段上的权重；特征提取器提取全局和局部特征； DMFI模块动态增强局部上下文线索并集成三个不同波长段的偏振特征； GCGD 模块利用全局引导使解码器聚焦在玻璃区域，结合不同等级的偏振特征逐步确定玻璃的位置和边界。本发明方法集成了玻璃图像的RGB信息和加权偏振信息，并在确定玻璃时利用全局上下文信息避免过度分割。本发明设计了PGSNet解决计算机视觉任务中的玻璃分割问题。权利要求书3页说明书6页附图2页 CN 114549548 A 2022.05.27 CN 114549548 A 1.一种基于偏振线索的玻璃图像分割方法，其特征在于，利用多波长偏振信息实现玻璃分割，包括以下步骤：步骤1、构建新的偏振玻璃分割数据集RGBP ‑Glass 构建带有偏振成像的玻璃分割数据集，数据集使用彩色偏振相机进行拍摄，同时采集四个不同方向的彩色偏振信息，处理得到R、 G、 B三个不同颜色波长段上的偏振成像；数据集中包含玻璃的RGB彩色图像，对应的R、 G、 B三个不同波长段上的AoLP和DoLP偏振图像，以及人工标注的玻璃掩膜图像；数据集涉及的场景包括不同场所、不同视角、不同光照条件下拍摄的不同种类和形状的玻璃；数据集随机划分为训练集和测试集；步骤2、构建玻璃分割网络PGSNet 玻璃分割网络PGSNet主要由早期动态注意模块、 Conformer骨干网络、动态多模态特征集成模块和全局上下文引导解码模块组成；早期动态注意模块的输入是R、 G、 B三通道AoLP和DoLP偏振图像，该模块基于ResNet ‑18 网络实现，采用一个全卷积层和一个SoftMax操作符估算每个波长段上偏振成像的权重；形式上，早期动态注意模块表示为： wr,wg,wb＝σ(<G(pr),G(pg),G(pb)>), P＝[wrpr,wgpg,wbpb], 其中， p{r,g,b}是R、 G、 B通道AoLP或DoLP的测量值， G为权重估算网络， < ·,·,·>表示向量， σ 是SoftMax函数；早期动态注意模块采用估算网络和SoftMax函数计算出每个通道的权重w{r,g,b}，并通过[·,·,·]进行通道维度上的连接操作；将RGB图像和EDA模块输出的加权偏振信息送入Conformer骨干网络，利用该网络提取鲁棒的全局和局部特征；动态多模态特征集成模块通过利用全局和局部信息，实现来自三个输入域的特征的鲁棒融合；动态多模态特征集成模块主要由两个部分组成：动态融合块和多尺度依赖感知块；动态融合块首先基于获得的三个标记嵌入序列生成对应的空间注意图，这些标记嵌入序列来自于三个经Conformer骨干网络处理的输入模态RGB、 AoLP、 DoLP；之后动态融合块将 Conformer骨干网络中提取的卷积特征用空间注意图加权并融合，这一过程表示为：其中， I、 φ、 ρ 分别代表RGB、 AoLP、 DoLP输入； Ω是一个函数，它先通过全连接层将每个标记嵌入的维度减小到一，然后将生成的嵌入重新塑造为2D图； M是每个输入经SoftMax函数计算得出的注意图；式中的C和T分别代表Conformer骨干网络中convolution分支和 transformer分支所生成的卷积特征和标记嵌入，其上标表示的是Conformer内部块的索引，是元素级乘法；多尺度依赖感知块用于减少目标玻璃形状和位置的变化对分割造成的影响，它采用多尺度自注意机制来增强动态融合特征FDF中所定位的玻璃对象的全局依赖性；通过改变感知尺度，多尺度依赖感知块有效地检测不同尺度区域之间的相关性；它的形式定义为：权　利　要　求　书 1/3 页 2 CN 114549548 A 2其中，表示一个k ×k的卷积层、一个批量归一化和ReLU激活函数；代表一个目标大小为n ×n的自适应平均池化，具体数值包括5、 7、 9、 11；代表一个双线性上采样， α 是一个可学习参数；表示自注意操作，被定义为 K和是三个可学习的线性嵌入函数，表现为三个全连接层；动态多模态特征集成模块在多尺度依赖感知块的输出特征上额外应用了一个3 ×3的卷积，从而得到整个模块的最终输出，表示为全局上下文引导解码模块在解码阶段保留全局上下文线索，包括全局上下文生成模块和注意增强模块，全局上下文生成模块生成了跨三个输入域的全局引导线索，注意增强模块利用这些全局引导线索来增强底层特征；全局上下文生成模块用于判断Conformer骨干网络提供的标记嵌入是否具有固有的全局感知特征；首先通过计算一组互相关特征来利用这些标记嵌入，该过程表示为：其中， xy属于集合{Iφ,Iρ,φI,φρ, ρ I, ρ φ}，表示sigmoid函数， d表示一个标记嵌入的长度；然后这些相互关联的特征通过一个线性投影Γ结合起来，由一个全连接层实现： T＝Γ([FIφ， FIρ， FφI， Fφp， Fρ I， Fρ φ]). 注意增强模块利用全局上下文生成模块的组合特征，通过计算并结合空间增强图E和通道特征e对输入特征进行增强；在全局上下文引导解码模块中，部署四个注意增强模块，解码器特征首先经过的是第4个注意增强模块，注意增强模块之间输出的特征通过一个基本解码器BD来处理和传输；第j个注意增强模块的数学定义如下： ej＝R(Fj)*R(Tg)， Fj′＝Fj*ej+Fj， Ej＝Pc(Fj′)*PT(ts， Tg)， Fj″＝Fj′*Ej+Fj′，其中，首先经过的第4个注意增强模块Fj＝F4＝FDMFI，另外三个注意增强模块满足这里的由上一个注意增强权　利　要　求　书 2/3 页 3 CN 114549548 A 3

专利 基于偏振线索的玻璃图像分割方法

专利基于偏振线索的玻璃图像分割方法