专利 一种违规图像识别方法、系统及设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210115379.5 (22)申请日 2022.02.07 (65)同一申请的已公布的文献号申请公布号 CN 114140673 A (43)申请公布日 2022.03.04 (73)专利权人人民中科（北京）智能技术有限公司地址 100080 北京市海淀区海淀大街1号梦想实验室5层 (72)发明人阮晓峰　王坚　李兵　余昊楠　胡卫明　 (74)专利代理机构北京三友知识产权代理有限公司 11127 专利代理师许曼　刘飞(51)Int.Cl. G06V 10/80(2022.01) G06V 30/148(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06F 40/289(2020.01) (56)对比文件 CN 111858843 A,2020.10.3 0 CN 113761190 A,2021.12.07 CN 109325148 A,2019.02.12 CN 112883731 A,2021.0 6.01 审查员曹宁 (54)发明名称一种违规图像识别方法、系统及设备 (57)摘要本文涉及人工智能领域，提供了一种违规图像识别方法、系统及设备，方法包括：分析待识别图像，得到文本信息及图像信息；将文本信息输入至文本特征提取模型中，得到文本特征向量组；将图像信息输入至图像特征提取模型中，得到图像特征向量组；将文本特征向量组及图像特征向量组输入至特征融合模型中，得到融合特征向量组，特征融合模型用于利用交叉注意力机制使得文本特征向量为图像特征向量添加注意力；将融合特征向量组输入至分类识别模型中，得到违规识别结果。本文使用交叉注意力机制融合两种模态特征，可提升违规图像识别的性能及鲁棒性。权利要求书3页说明书15页附图9页 CN 114140673 B 2022.05.20 CN 114140673 B 1.一种违规图像识别方法，其特征在于，包括：分析待识别图像，得到文本信息及图像信息；将所述文本信息输入至文本特征提取模型中，得到文本特征向量组；将所述图像信息输入至图像特征提取模型中，得到图像特征向量组；将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量组，其中，所述特征融合模型用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力；将所述融合特征向量组输入至分类识别模型中，得到违规识别结果；其中，所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型利用具有违规识别标签的图像训练得到；所述特征融合模型包括：第一线性变换层、第二线性变换层、第三线性变换层、第一关联层组、第二关联层组；将所述文本特征向量组及所述图像特征向量组输入至特征融合模型中，得到融合特征向量组，包括：利用所述第一线性变换层对所述文本特征向量组进行变换，得到键向量组；利用所述第二线性变换层对所述文本特征向量组进行变换，得到值向量组；利用所述第三线性变换层对所述图像特征向量组进行变换，得到查询向量组；利用所述第一关联层组并根据所述查询向量组及键向量组，计算得到注意力矩阵；利用所述第二关联层组并根据所述注意力矩阵、所述值向量组及所述图像特征向量组，计算得到融合特征向量组。 2.如权利要求1所述的方法，其特征在于，所述文本特征提取模型包括：第一嵌入层及多个第一Transformer层；将所述文本信息输入至文本特征提取模型中，得到文本特征向量组，包括：利用所述第一嵌入层对所述文本信息进行分词划分处理得到分词结果，在所述分词结果的开头添加开始符号以及在所述分词结果的结尾添加结束符号，将包含开始符号及结束符号的分词结果中的每一字符分别转换为一个d维度向量；利用所述多个第一Transformer层学习所述第一嵌入层输出结果中每一符号语义关联性，得到文本特征向量组。 3.如权利要求1所述的方法，其特征在于，所述图像特征提取模型包括：第二嵌入层及多个第二Transformer层；将所述图像信息输入至图像特征提取模型中，得到图像特征向量组，包括：利用所述第二嵌入层对所述图像信息进行缩放处理得到第一预定大小的图像，将缩放后的图像切分为第二预定大小的子图像，将各子图像分别转换为一个d维度向量；利用所述多个第二Transformer层学习第二嵌入层输出结果中每一子图像语义关联性，得到图像特征向量组。 4.如权利要求1所述的方法，其特征在于，所述第一关联层组包括：第一计算层及归一化层；利用所述第一计算层对所述查询向量组及键向量组进行乘积处理，得到注意力矩阵；利用所述归一化层对所述注意力矩阵进行归一化处理。权　利　要　求　书 1/3 页 2 CN 114140673 B 25.如权利要求4所述的方法，其特征在于，所述第二关联层组包括：第二计算层、第一残差连接与归一化层、第四线性变换层及第二残差连接与归一化层；利用所述第二计算层对归一化后的注意力矩阵及所述值向量组进行相乘处理，得到第一中间向量组；利用所述第一残差连接与归一化层将所述图像特征向量组作为残差添加至所述第一中间向量组中，并对添加残差后的向量组进行归一化处理，得到第二中间向量组；利用所述第四线性变换层对所述第二中间向量组进行变换；利用所述第二残差连接与归一化层将第二中间向量组作为残差添加至所述第四线性变换层输出的向量组中，并对添加残差后的向量组进行归一化处理，得到融合特征向量组。 6.如权利要求1所述的方法，其特征在于，所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型训练过程包括：获取多个历史图像样本及各历史图像样本的违规识别标签；分析各历史图像样本，得到各样本的文本信息及图像信息；初始化文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数；根据各样本的文本信息及文本特征提取模型，得到各样本的文本特征向量组；根据各样本的图像信息及图像特征提取模型，得到各样本的图像特征向量组；将各样本的文本特征向量组及各样本的图像特征向量组输入至特征融合模型中，得到各样本的融合特征向量组；将各样本的融合特征向量组输入至分类识别模型中，得到各样本的违规识别结果；根据各样本的违规识别结果及相应的违规识别标签，建立二分类损失函数；利用二分类损失函数训练所述文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型中的参数。 7.如权利要求6所述的方法，其特征在于，所述文本特征提取模型及图像特征提取模型中的参数利用CL IP预训练模型初始化；所述特征融合模型中的参数利用图像特征提取模型的参数初始化；所述分类识别模型中的参数利用Xvaier初始化。 8.一种违规图像识别系统，其特征在于，包括：图像识别模型、文本特征提取模型、图像特征提取模型、特征融合模型及分类识别模型；所述图像识别模型用于接收待识别图像，分析所述待识别图像得到文本信息及图像信息；所述文本特征提取模型连接所述图像识别模型，用于提取文本信息中的特征，得到文本特征向量组；所述图像特征提取模型连接所述图像识别模型，用于提取图像信息中的特征，得到图像特征向量组；所述特征融合模型连接所述文本特征提取模型及图像特征提取模型，用于利用交叉注意力机制使得文本特征向量组中的向量为图像特征向量组中的向量添加注意力，从而得到融合特征向量组；所述分类识别模型连接所述特征融合模型，用于根据融合特征向量组，得到违规识别权　利　要　求　书 2/3 页 3 CN 114140673 B 3

专利 一种违规图像识别方法、系统及设备

专利一种违规图像识别方法、系统及设备