专利 一种基于多粒度文本推理的示意图目标检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211144391.5 (22)申请日 2022.09.20 (71)申请人西安交通大学地址 710049 陕西省西安市碑林区咸宁西路28号 (72)发明人张玲玲　杨祎　魏笔凡　武亚强　刘博　祁敬超　李军军　刘均　郑庆华　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 专利代理师高博 (51)Int.Cl. G06V 10/82(2022.01) G06V 30/14(2022.01) G06V 30/19(2022.01)G06F 40/30(2020.01) G06N 5/04(2006.01) (54)发明名称一种基于多粒度文本推理的示意图目标检测方法及系统 (57)摘要本发明公开了一种基于多粒度文本推理的示意图目标检测方法及系统，将示意图的文本特征与图像特征融合得到经过文本特征增强的视觉特征；根据增强视觉特征提取视觉节点，根据示意图本身特征提取文本节点，将提取到示意图的文本节点与视觉节点作为图节点，根据文本节点与视觉节点的相对位置空间以及文本语义相似性构造边，细粒度融合文本特征与视觉特征，得到增强后的视觉节点特征，完成局部文本推理；提取全局文本关键词；使用文本节点和全局文本关键词之间的相似度筛选出有效的局部文本节点；将有效的局部文本节点、全局文本推理和局部文本推理进行多粒度融合，完成示意图目标检测。本发明有效提升了检测精度。权利要求书2页说明书9页附图2页 CN 115393694 A 2022.11.25 CN 115393694 A 1.一种基于多粒度文本推理的示意图目标检测方法，其特征在于，包括以下步骤： S1、将示意图的文本特征与图像特征融合得到经过文本特征增强的视觉特征完成全局文本推理； S2、根据步骤S1得到的增强视觉特征提取视觉节点，根据示意图本身特征提取文本节点，将提取到示意图的文本节点与视觉节点作为图节点，根据文本节点与视觉节点的相对位置空间以及文本语义相似性构造边，细粒度融合文本特征与视觉特征，得到增强后的视觉节点特征Nven，完成局部文本推理； S3、提取全局文本关键词；使用步骤S2得到的文本节点和全局文本关键词之间的相似度筛选出有效的局部文本节点；将有效的局部文本节点、步骤S1得到的全局文本推理和步骤S2得到的局部文本推理进行多粒度融合，完成示意图目标检测。 2.根据权利要求1所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S1具体为： S101、使用Bert预训练语言模型对全局描述文本Tig进行语义编码，将得到的文本编码输入双向GRU网络，获取前后两个方向的语义信息，拼接后得到全局文本的整体表征 S102、将单个图像di输入到卷积神经网络ResNet中，经过四个阶段的卷积池化操作后，得到图像整体特征vg； S103、使用转换矩阵将步骤S101得到的全局文本整体表征与步骤S102得到的图像整体特征vg映射到同一个特征空间中，然后通过拼接求和，再将对应的向量进行融合，得到经过文本特征增强的视觉特征将增强的视觉特征送入RPN、 ROI网络，进行分类与回归操作，完成全局文本推理。 3.根据权利要求1所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S101中，双向GRU网络中加入更新门与重置门，通过更新门与重置门保留文本的特征。 4.根据权利要求1所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S2具体为： S201、将CSDQA数据集中的单个示意图di输入easyocr算法中，得到示意图中所有的文字信息及其相应的位置信息，共M个OCR标记；将示意图中检测到的所有OCR标记作为文本节点，将节点特征中的文本向量与位置向量经过线性矩阵变化，经标准化处理后融合得到文本节点的特征向量 S202、将CSDQA数据集中的单个示意图di输入卷积神经网络ResNet101的前四个阶段提取到特征图；然后将特征图输入RPN网络，得到前景锚框及其位置偏移量，再将前景锚框及其位置偏移量综合作为候选区域，然后剔除面积小于指定阈值和超出边界的候选区域，对剩余的候选区域进行非极大值抑制，形成精确的候选区域，最终得到ROI层， ROI层接收原始的特征图以及RPN网络输出的候选区域，将候选区域映射回原示意图di，然后进行最大池化处理，得到视觉节点Nv的区域特征向量 S203、将步骤S201得到的文本节点Nt与步骤S202得到的视觉节点Nv作为图di中的节点，将文本节点与视觉节点的相似性视作边，使用转换矩阵将文本节点的特征向量与视觉节点权　利　要　求　书 1/2 页 2 CN 115393694 A 2的特征向量映射到同一特征空间中，再使用余弦函数计算文本节点与视觉节点的语义相似性Simsemantic；结合语义相似性Si msemantic以及位置关系Si mposition即得到第m个文本节点与第 n个视觉节点的空间语义相似性Simmn； S204、根据步骤S203得到的文本节点与视觉节点的相似性Simmn，将所有视觉节点特征 Nv与其对应的文本节点 Nvt进行拼接融合，得到增强后的视觉节点Nven，完成局部文本推理。 5.根据权利要求4所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S201中，将示意图di中得到的文本输入Bert预训练语言模型得到文本向量xm，由文本框的位置信息中抽取得到位置向量ym。 6.根据权利要求4所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S202中， RPN网络分为分类与回归两个分支，分类分支区分前景与背景，回归分支对锚框位置进行精修，确定位置偏移量；锚框位置是针对特征图每一个点所生成的anchors，宽高比为{1:1,1:2,2:1}。 7.根据权利要求1所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S3具体为： S301、选用StanfordCoreNLP工具包对全局描述文本进行词性标注，并选择出其中的名词以及形容词作为关键词； S302、计算步骤S301得到的全局文本中的关键词与步骤S2得到的文本节点的相似度，确定局部文本节点的筛选机制； S303、集成步骤S1得到的全局文本推理与步骤S2得到的局部文本推理，并添加步骤 S302得到的局部文本节点的筛选机制。 8.根据权利要求7所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S301中，将全局描述文本Tig输入工具包，经过词性标注、词语筛选和词语编码后，获得关键词向量 Nkey。 9.根据权利要求7所述的基于多粒度文本推理的示意图目标检测方法，其特征在于，步骤S302中，局部文本节点的筛选机制为：根据步骤S301得到的全局文本中的关键词与局部文本节点的相似度Simm去除局部文本节点中的噪声，筛选出有效的局部文本节点。 10.一种基于多粒度文本推理的示意图目标检测系统，其特征在于，包括：全局文本推理模块，将示意图的文本特征与图像特征融合得到经过文本特征增强的视觉特征完成全局文本推理；局部文本推理模块，根据全局文本推理模块得到的增强视觉特征提取视觉节点，根据示意图本身特征提取文本节点，将提取到示意图的文本节点与视觉节点作为图节点，根据文本节点与视觉节点的相对位置空间以及文本语义相似性构造边，细粒度融合文本特征与视觉特征，得到增强后的视觉节点特征Nven，完成局部文本推理；融合检测模块，提取全局文本关键词；使用局部文本推理模块得到的文本节点和全局文本关键词之间的相似度筛选出有效的局部文本节点；将有效的局部文本节点、全局文本推理模块得到的全局文本推理和局部文本推理模块得到的局部文本推理进行多粒度融合，完成示意图目标检测。权　利　要　求　书 2/2 页 3 CN 115393694 A 3

专利 一种基于多粒度文本推理的示意图目标检测方法及系统

专利一种基于多粒度文本推理的示意图目标检测方法及系统