iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210612614.X (22)申请日 2022.05.31 (71)申请人 河南工业大 学 地址 450001 河南省郑州市高新 技术产业 开发区莲 花街100号 (72)发明人 李卫东 王帅 汪驰升 白林燕  李祯迎 梁鑫婕 王相业 崔磊  (74)专利代理 机构 郑州睿信知识产权代理有限 公司 41119 专利代理师 史萌杨 (51)Int.Cl. G06V 20/52(2022.01) G06V 30/14(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种极端条件下场景图像识别方法 (57)摘要 本发明属于图像识别技术领域, 具体涉及一 种极端条件下场景图像识别方法, 包括, 获取待 识别图像, 将待识别图像输入至图像识别模型中 进行识别, 得到图像中字符的识别结果; 其中, 图 像识别模型包括特征提取模块、 编码器和解码 器; 特征提取模块用于对输入的图像进行特征提 取以获得视觉特征; 编码器用于对视觉特征进行 编码, 以提取语义特征; 解码器包括CBAM注意力 单元和LS TM注意力单元; CB AM注意力单元用于对 视觉特征和语义特征进行解码, 获得注意力特 征; LSTM注意力单元用于对注意力特征再次解 码, 获得识别字符的概率分布; 图像识别模型利 用已知字符的图像作为数据集训练得到。 本发明 解决了在极端情况下对图像字符识别准确度低 的问题。 权利要求书1页 说明书10页 附图3页 CN 114973136 A 2022.08.30 CN 114973136 A 1.一种极端条件下场景图像识别方法, 其特 征在于: 包括如下步骤: 1)获取待识别图像; 2)将待识别图像输入至图像识别模型中进行识别, 得到图像中字符的识别结果; 其中, 所述图像识别模型包括特征提取模块、 编码器和解码器; 所述特征提取模块用于 对输入的图像进行特征提取以获得视觉特征; 所述编码器用于对所述视觉特征进行编码, 以提取全局语义特征; 所述解码器包括CBAM注意力单元和LSTM注意力单元; 所述CBAM注意 力单元用于对所述全局语义特征进行解码, 获得注意力特征; 所述LSTM注意力单元用于对 所述注意力特征进行解码, 获得识别字符的概率分布; 所述图像识别模型利用已知字符的 图像作为数据集训练得到 。 2.根据权利要求1所述的极端条件下场景图像识别方法, 其特征在于: 所述编码器包括 依次连接的N层非局部注意力模块, N≥1, 且最后一个非局部注 意力模块的输出为所述全局 语义特征; 所述非局部注意力模块包括非局部注意力单元和累加单元; 所述非局部注意力 单元用于对输入的初始特征图执行非局部注意力机制 计算, 以得到非局部特征图; 所述累 加单元通过以下公式对所述 非局部特征图和初始特征图进 行加权求和, 以获得捕获全局语 义信息的特 征图Yi: Yi=WYyi+xi 其中, yi为非局部特 征图, WY为学习权 重矩阵, xi为位置i对应的初始特 征图。 3.根据权利要求2所述的极端条件下场景图像识别方法, 其特 征在于: N =3。 4.根据权利要求1~3任一项所述的极端条件下场景图像识别方法, 其特征在于: 所述 特征提取模块包括残差网络 。 5.根据权利要求4所述的极端条件下场景图像识别方法, 其特征在于: 所述残差网络为 ResNet50, 且ResNet5 0为仅使用前4个部分的ResNet5 0。 6.根据权利要求1~3任一项所述的极端条件下场景图像识别方法, 其特征在于: 在训 练所述图像识别模型时, 在编码器和解码器之间设置CTC模块, 所述CTC模块用于对齐数据 标签。 7.根据权利要求6所述的极端条件下场景图像识别方法, 其特征在于: 训练所述图像识 别模型时使用的损失函数公式为: Ltotal= λLCTC+(1‑λ )LCE 其中, LCE为交叉熵损失, LCTC为CTC损失, 0 < λ<1。 8.根据权利要求1所述的极端条件下场景图像识别方法, 其特征在于: 所述图像识别模 型的输入图像尺寸按照如下 方法得到: 采用聚类算法对图像集进行聚类, 获取多个聚类块; 选择包含最多数据的聚类块的聚 类中心所对应的图像尺寸作为输入图像尺寸。 9.根据权利要求8所述的极端条件下场景图像识别方法, 其特征在于: 所述聚类算法为 K均值聚类。 10.根据权利要求1或2或3或8或9所述的极端条件下场景图像识别方法, 其特征在于, 将待识别图像输入至所述图像识别模型前还需将待识别图像由三通道的RGB图像转换成单 通道的灰度图。权 利 要 求 书 1/1 页 2 CN 114973136 A 2一种极端条件下场景图像识别方 法 技术领域 [0001]本发明属于图像识别技 术领域, 具体涉及一种极端条件下场景图像识别方法。 背景技术 [0002]工业燃气表被广泛应用于国防、 交通、 燃气、 电力等工业领域。 近年来随着生产规 模扩大, 工业生产中仪表使用率飞速增长, 机械燃气表因安装方便快捷, 使用周期长, 大量 用于燃气厂, 水厂, 变电站 等场景下。 虽然现有远程抄表系统在一定程度上克服工人手动抄 表周期长, 人工成本高等问题, 但极端成像环境下仍然无法准确、 快速识别表盘字符, 使得 工厂无法精确掌握工业生产中实时数据, 影响工业智能化的发展和进步。 而工业仪表远程 抄表系统中最关键的步骤是对仪表图像数字字符识别。 为了提高燃气表字符识别准确 率, 目前国内外研究者利用多种技术 实现仪表字符识别。 这些方法虽然可以自动获得理想条件 下仪表更准确的识别结果, 但操作耗时长, 操作过程繁琐, 难以推广, 特别是极端环境条件 下识别效果差。 以基于模板匹配法的字符识别为例, 首先人工建立规格尺寸一致的标准模 板识别库; 然后根据标准模板库图像尺寸调整需要识别字符的图像尺寸, 使其与模板尺寸 匹配; 依次计算分割后的每一个待识别字符与模板库中所有字符的相似度, 根据相似度大 小获得识别结果, 而后再将结果输出。 虽然这种 方法成本低, 但该方法需要大量前期工作, 计算耗时较长, 不同类型的表盘需要制作不同的字符模板。 此外, 该方法适用于成像质量好 且字符规范的仪表, 对于 仪表图像中不 规范字符和成像质量差的表盘, 其识别的性能较差 。 [0003]近年来, 由于基于深度学习的计算机视觉方法能够消除结果中的不一致和错误, 大量计算机视觉方法取代了传统的手工操作, 在各个方面得到了广泛应用, 如自动识别系 统, 缺陷检测等。 有学者提出一种堆叠式架构的编码器 ‑解码器字符识别方法, 首次使用 BiLSTM作为堆叠结构重复计算上下文特征, 然而 该堆叠块高达12层, 计算开销大, 推理速度 慢, 此外BiLSTM也只能对 特定长距离表现良好。 总之, 工业生产中, 工厂快速、 准确地掌握生 产中仪表实时数据, 是工业智能化发展和进步的基础。 但自然场景下仪表表盘受天气, 光 照, 角度等难以预见的因素影响, 导致表盘成像质量差, 如存在图像过度曝光、 伪影、 模糊、 字符显示不全、 遮挡等问题, 远程抄表系统对极端情况下的表盘图像识别效果差, 难以满足 工业生产需求。 发明内容 [0004]本发明的目的在于提供一种极端条件下场景图像识别方法, 用以解决极端情况下 对字符图像识别准确度低的问题。 [0005]为解决上述技术问题, 本发明所提供的技术方案以及技术方案对应的有益效果如 下: [0006]本发明提供的一种极端条件下场景图像识别方法, 包括如下步骤: [0007]1)获取待识别图像; [0008]2)将待识别图像输入至图像识别模型中进行识别, 得到图像中字符的识别结果;说 明 书 1/10 页 3 CN 114973136 A 3

.PDF文档 专利 一种极端条件下场景图像识别方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种极端条件下场景图像识别方法 第 1 页 专利 一种极端条件下场景图像识别方法 第 2 页 专利 一种极端条件下场景图像识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:59:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。