(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210115379.5
(22)申请日 2022.02.07
(65)同一申请的已公布的文献号
申请公布号 CN 114140673 A
(43)申请公布日 2022.03.04
(73)专利权人 人民中科 (北京) 智能技 术有限公
司
地址 100080 北京市海淀区海淀大街1号梦
想实验室5层
(72)发明人 阮晓峰 王坚 李兵 余昊楠
胡卫明
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 许曼 刘飞(51)Int.Cl.
G06V 10/80(2022.01)
G06V 30/148(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06F 40/289(2020.01)
(56)对比文件
CN 111858843 A,2020.10.3 0
CN 113761190 A,2021.12.07
CN 109325148 A,2019.02.12
CN 112883731 A,2021.0 6.01
审查员 曹宁
(54)发明名称
一种违规图像识别方法、 系统及设备
(57)摘要
本文涉及人工智能领域, 提供了一种违规图
像识别方法、 系统及设备, 方法包括: 分析待识别
图像, 得到文本信息及图像信息; 将文本信息输
入至文本特征提取模型中, 得到文本特征向量
组; 将图像信息输入至图像特征提取模型中, 得
到图像特征向量组; 将文本特征向量组及图像特
征向量组输入至特征融合模型中, 得到融合特征
向量组, 特征融合模型用于利用交叉注意力机制
使得文本特征向量为图像特征向量添加注意力;
将融合特征向量组输入至分类识别模 型中, 得到
违规识别结果。 本文使用交叉注 意力机制融合两
种模态特征, 可提升违规图像识别的性能及鲁棒
性。
权利要求书3页 说明书15页 附图9页
CN 114140673 B
2022.05.20
CN 114140673 B
1.一种违规图像识别方法, 其特 征在于, 包括:
分析待识别图像, 得到文本信息及图像信息;
将所述文本信息 输入至文本特 征提取模型中, 得到文本特 征向量组;
将所述图像信息 输入至图像特 征提取模型中, 得到图像特 征向量组;
将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中, 得到融合特征
向量组, 其中, 所述特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量
为图像特 征向量组中的向量添加注意力;
将所述融合特 征向量组输入至分类识别模型中, 得到违规识别结果;
其中, 所述文本特征提取模型、 图像特征提取模型、 特征融合模型及分类识别模型利用
具有违规识别标签的图像训练得到;
所述特征融合模型包括: 第一线性变换层、 第二线性变换层、 第三线性变换层、 第一关
联层组、 第二关联层组;
将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中, 得到融合特征
向量组, 包括:
利用所述第一线性变换层对所述文本特 征向量组进行变换, 得到 键向量组;
利用所述第二线性变换层对所述文本特 征向量组进行变换, 得到值向量组;
利用所述第三线性变换层对所述图像特 征向量组进行变换, 得到查询向量组;
利用所述第一关联层组并根据所述 查询向量组及键向量组, 计算得到注意力矩阵;
利用所述第二关联层组并根据所述注意力矩阵、 所述值向量组及所述图像特征向量
组, 计算得到融合特 征向量组。
2.如权利要求1所述的方法, 其特征在于, 所述文本特征提取模型包括: 第一嵌入层及
多个第一Transformer层;
将所述文本信息 输入至文本特 征提取模型中, 得到文本特 征向量组, 包括:
利用所述第 一嵌入层对所述文本信 息进行分词划分处理得到分词结果, 在所述分词结
果的开头添加开始符号以及在所述分词结果的结尾添加结束符号, 将包含开始符号及结束
符号的分词结果中的每一字符分别转换为 一个d维度向量;
利用所述多个第一Transformer层学习所述第一嵌入层输出结果中每一符号语义关联
性, 得到文本特 征向量组。
3.如权利要求1所述的方法, 其特征在于, 所述图像特征提取模型包括: 第二嵌入层及
多个第二Transformer层;
将所述图像信息 输入至图像特 征提取模型中, 得到图像特 征向量组, 包括:
利用所述第 二嵌入层对所述图像信 息进行缩放处理得到第 一预定大小的图像, 将缩放
后的图像切分为第二预定大小的子图像, 将各子图像分别转换为 一个d维度向量;
利用所述多个第二Transformer层学习第二嵌入层输出结果中每一子图像语义关联
性, 得到图像特 征向量组。
4.如权利要求1所述的方法, 其特征在于, 所述第一关联层组包括: 第一计算层及归一
化层;
利用所述第一计算层对所述 查询向量组及键向量组进行乘积处 理, 得到注意力矩阵;
利用所述归一 化层对所述注意力矩阵进行归一 化处理。权 利 要 求 书 1/3 页
2
CN 114140673 B
25.如权利要求4所述的方法, 其特征在于, 所述第 二关联层组包括: 第 二计算层、 第一残
差连接与归一 化层、 第四线性变换层 及第二残差连接与归一 化层;
利用所述第 二计算层对归一化后的注意力矩阵及所述值向量组进行相乘 处理, 得到第
一中间向量组;
利用所述第一残差连接与归一化层将所述图像特征向量组作为残差添加至所述第一
中间向量组中, 并对添加残差后的向量组进行归一 化处理, 得到第二中间向量组;
利用所述第四线性变换层对所述第二中间向量组进行变换;
利用所述第二残差连接与归一化层将第二中间向量组作为残差添加至所述第四线性
变换层输出的向量组中, 并对添加残差后的向量组进行归一 化处理, 得到融合特 征向量组。
6.如权利要求1所述的方法, 其特征在于, 所述文本特征提取模型、 图像特征提取模型、
特征融合模型及分类识别模型训练过程包括:
获取多个历史图像样本及各历史图像样本的违规识别标签;
分析各历史图像样本, 得到各样本的文本信息及图像信息;
初始化文本特征提取模型、 图像特征提取模型、 特征融合模型及分类识别模型中的参
数;
根据各样本的文本信息及文本特 征提取模型, 得到各样本的文本特 征向量组;
根据各样本的图像信息及图像特 征提取模型, 得到各样本的图像特 征向量组;
将各样本的文本特征向量组及各样本的图像特征向量组输入至特征融合模型中, 得到
各样本的融合特 征向量组;
将各样本的融合特 征向量组输入至分类识别模型中, 得到各样本的违规识别结果;
根据各样本的违规识别结果及相应的违规识别标签, 建立 二分类损失函数;
利用二分类损 失函数训练所述文本特征提取模型、 图像特征提取模型、 特征融合模型
及分类识别模型中的参数。
7.如权利要求6所述的方法, 其特征在于, 所述文本特征提取模型及图像特征提取模型
中的参数利用CL IP预训练模型初始化;
所述特征融合模型中的参数利用图像特 征提取模型的参数初始化;
所述分类识别模型中的参数利用Xvaier初始化。
8.一种违规图像识别系统, 其特征在于, 包括: 图像识别模型、 文本特征提取模型、 图像
特征提取模型、 特 征融合模型及分类识别模型;
所述图像识别模型用于接收待识别图像, 分析所述待识别图像得到文本信 息及图像信
息;
所述文本特征提取模型连接所述图像识别模型, 用于提取文本信息中的特征, 得到文
本特征向量组;
所述图像特征提取模型连接所述图像识别模型, 用于提取图像信息中的特征, 得到 图
像特征向量组;
所述特征融合模型连接所述文本特征提取模型及图像特征提取模型, 用于利用交叉注
意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力, 从而得到
融合特征向量组;
所述分类识别模型连接所述特征融合模型, 用于根据融合特征向量组, 得到违规识别权 利 要 求 书 2/3 页
3
CN 114140673 B
3
专利 一种违规图像识别方法、系统及设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:19:41上传分享