(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211144391.5
(22)申请日 2022.09.20
(71)申请人 西安交通大 学
地址 710049 陕西省西安市碑林区咸宁西
路28号
(72)发明人 张玲玲 杨祎 魏笔凡 武亚强
刘博 祁敬超 李军军 刘均
郑庆华
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 高博
(51)Int.Cl.
G06V 10/82(2022.01)
G06V 30/14(2022.01)
G06V 30/19(2022.01)G06F 40/30(2020.01)
G06N 5/04(2006.01)
(54)发明名称
一种基于多粒度文本推理的示意图目标检
测方法及系统
(57)摘要
本发明公开了一种基于多粒度文本推理的
示意图目标检测方法及系统, 将示意图的文本特
征与图像特征融合得到经过文本特征增强的视
觉特征; 根据增强视觉特征提取视觉节点, 根据
示意图本身特征提取文本节点, 将提取到示意图
的文本节 点与视觉节点作为图节 点, 根据文本节
点与视觉节点的相对位置空间以及文本语义相
似性构造边, 细粒度融合文本特征与视觉特征,
得到增强后的视觉节点特征, 完成局部文本推
理; 提取全局文本关键词; 使用文本节点和全局
文本关键词之间的相似度筛选出有效的局部文
本节点; 将有效的局部文本节点、 全局文本推理
和局部文本推理进行多粒度融合, 完成示意图目
标检测。 本发明有效提升 了检测精度。
权利要求书2页 说明书9页 附图2页
CN 115393694 A
2022.11.25
CN 115393694 A
1.一种基于多粒度文本推理的示 意图目标检测方法, 其特 征在于, 包括以下步骤:
S1、 将示意图的文本特征与图像特征融合得到经过文本特征增强的视觉特征
完成
全局文本推理;
S2、 根据步骤S1得到的增强视觉特征
提取视觉节点, 根据示意图本身特征提取文本
节点, 将提取到示意图的文本节点与视觉节点作为图节点, 根据文本节点与视觉节点的相
对位置空间以及文本语义相似性构造边, 细粒度融合文本特征与视觉特征, 得到增强后的
视觉节点特 征Nven, 完成局部文本推理;
S3、 提取全局文本关键词; 使用步骤S2得到的文本节点和全局文本关键词之间的相似
度筛选出有效的局部文本节点; 将有效的局部文本节点、 步骤S1得到的全局文本推理和步
骤S2得到的局部文本推理进行多粒度融合, 完成示 意图目标检测。
2.根据权利要求1所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S1具体为:
S101、 使用Bert预训练语言模型对全局描述文本Tig进行语义编码, 将得到的文本编码
输入双向GRU网络, 获取 前后两个方向的语义信息, 拼接后得到全局文本的整体表征
S102、 将单个图像di输入到卷积神经网络ResNet中, 经过四个阶段的卷积池化操作后,
得到图像整体特 征vg;
S103、 使用转换矩阵将步骤S101得到的全局文本整体表征与步骤S102得到的图像整体
特征vg映射到同一个特征空间中, 然后通过拼接求和, 再将对应的向量进行 融合, 得到经过
文本特征增强的视觉特征
将增强的视觉特征
送入RPN、 ROI网络, 进行分类与回归操
作, 完成全局文本推理。
3.根据权利要求1所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S101中, 双向GRU网络中加入更新门与重 置门, 通过 更新门与重 置门保留文本的特 征。
4.根据权利要求1所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S2具体为:
S201、 将CSDQA数据集中的单个示意图di输入easyocr算 法中, 得到示意图中所有的文字
信息及其相应的位置信息, 共M个OCR标记; 将示意图中检测到的所有OCR标记作为文本节
点, 将节点特征
中的文本向量与位置向量经过线性矩阵变化, 经标准化处理后融合得到
文本节点的特 征向量
S202、 将CSDQA数据集中的单个示意图di输入卷积神经网络ResNet101的前四个阶段提
取到特征图; 然后将特征图输入RPN网络, 得到前景锚框及其位置偏移量, 再将前景锚框及
其位置偏移量综合作为候选区域, 然后剔除面积小于指定阈值和超出边界的候选区域, 对
剩余的候选区域进 行非极大值抑制, 形成精确的候选区域, 最终得到ROI层, ROI层接收原始
的特征图以及RPN网络输出的候选区域, 将候选区域映射回原示意图di, 然后进行最大池化
处理, 得到视觉节点Nv的区域特 征向量
S203、 将步骤S201得到的文本节点Nt与步骤S202得到的视觉节点Nv作为图di中的节点,
将文本节点与视觉节 点的相似性视作边, 使用转换矩阵将文本节点的特征向量与视觉节点权 利 要 求 书 1/2 页
2
CN 115393694 A
2的特征向量映射到同一特征空间中, 再使用余弦函数计算文本节点与视觉节点的语义相似
性Simsemantic; 结合语义相似性Si msemantic以及位置关系Si mposition即得到第m个文本节点与第
n个视觉节点的空间语义相似性Simmn;
S204、 根据步骤S203得到的文本节点与视觉节点的相似性Simmn, 将所有视觉节点特征
Nv与其对应的文本节点 Nvt进行拼接融合, 得到增强后的视 觉节点Nven, 完成局部文本推理。
5.根据权利要求4所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S201中, 将示意图di中得到的文本
输入Bert预训练语言模型得到文 本向量xm, 由文本框
的位置信息
中抽取得到位置向量ym。
6.根据权利要求4所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S202中, RPN网络分为分类与回归两个分支, 分类分支区分前景与背景, 回归分支对锚框
位置进行精修, 确 定位置偏移量; 锚框位置是针对特征图每一个点所生成的anchors, 宽高
比为{1:1,1:2,2:1}。
7.根据权利要求1所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S3具体为:
S301、 选用StanfordCoreNLP工具包对全局描述文本进行词性标注, 并选择出其中的名
词以及形容词作为关键词;
S302、 计算步骤S301得到的全局文本中的关键词与步骤S2得到的文本节点的相似度,
确定局部文本节点的筛 选机制;
S303、 集成步骤S1得到的全局文本推理与步骤S2得到的局部文本推理, 并添加步骤
S302得到的局部文本节点的筛 选机制。
8.根据权利要求7所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S301中, 将全局描述文本Tig输入工具包, 经过词性标注、 词语筛选和词语编码后, 获得关
键词向量 Nkey。
9.根据权利要求7所述的基于多粒度文本推理 的示意图目标检测方法, 其特征在于, 步
骤S302中, 局部文本节点的筛选机制为: 根据步骤S301得到的全局文本中的关键词与局 部
文本节点的相似度Simm去除局部文本节点中的噪声, 筛 选出有效的局部文本节点。
10.一种基于多粒度文本推理的示 意图目标检测系统, 其特 征在于, 包括:
全局文本推理模块, 将示意图的文本特征与图像特征融合得到经过文本特征增强的视
觉特征
完成全局文本推理;
局部文本推理模块, 根据全局文本推理模块得到的增强视觉特征
提取视觉节点, 根
据示意图本身特征提取文本节点, 将提取到示意图的文本节点与视觉节点作为图节点, 根
据文本节点与视觉节 点的相对位置空间以及文本语义相似性构 造边, 细粒度融合文本特征
与视觉特征, 得到增强后的视 觉节点特 征Nven, 完成局部文本推理;
融合检测模块, 提取全局文本关键词; 使用局部文本推理模块得到的文本节点和全局
文本关键词之间的相似度筛选出有效的局部文本节点; 将有效的局部文本节点、 全局文本
推理模块得到的全局文本推理和局部文本推理模块得到的局部文本推理进 行多粒度融合,
完成示意图目标检测。权 利 要 求 书 2/2 页
3
CN 115393694 A
3
专利 一种基于多粒度文本推理的示意图目标检测方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:47上传分享