(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210875014.2
(22)申请日 2022.07.25
(71)申请人 北方民族大 学
地址 750021 宁夏回族自治区银川市西夏
区文昌北街204 号
(72)发明人 王海荣 郭瑞萍
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 冯炳辉
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 40/126(2020.01)
G06F 40/194(2020.01)
G06F 40/211(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种图文数据的多 级关系分析与挖掘方法
(57)摘要
本发明公开了一种图文数据的多级关系分
析与挖掘方法, 其引入BERT ‑Large提取文本 特征
构建文本连接图, 利用Faster ‑RCNN网络提取 图
像特征来学习空间位置关系和语义关系并构建
图像连接图, 进而完成单模态内部语义关系计
算, 在此基础上, 使用 “节点切分方法 ”和带多头
注意力机制的图卷积网络, 进行局部和全局的 图
文关系融合。 此外, 为提升关系分析与挖掘效率,
采用了基于注 意力机制的连边权重剪枝策略, 用
以增强重要分支表示, 减少冗余信息干扰。 在公
开的Flickr30K、 MSCOCO ‑1K、 MSCOCO ‑5K数据集上
进行方法实验, 并与11种方法进行实验 结果的对
比分析, 本发明在Flickr30K上的平均召回率提
高了0.97%和0.57%, 在MSCOCO ‑1K上的平均召
回率提高了0.93%和0.63%, 在MSCOCO ‑5K上的
平均召回率 提高了0.37%和0.93%。
权利要求书5页 说明书14页 附图3页
CN 115098646 A
2022.09.23
CN 115098646 A
1.一种图文数据的多 级关系分析与挖掘方法, 其特 征在于, 包括以下步骤:
1)采集不同模态的图文数据, 包 含文本和图像;
2)对获取到的不同模态的图文数据分模态进行 特征表示, 提取文本和图像特 征向量;
3)图文数据特征表示后, 分别构建文本连接图和图像连接 图, 进行单模态内部关系挖
掘, 得到单模态内部关系相似度, 即 分别得到文本内部关系相似度和图像内部关系相似度;
4)参照文本连接图和图像连接图, 计算连接图中局部某个节点与另一模态节点间的相
似度, 利用 “节点切分方法 ”进一步实施局部相似性操作, 得到图文局部 关系相似度; 联合考
虑从图像到文本、 从文本到图像的局部相似性来学习全局相似性, 采用带多头注意力机制
的GCN通过相邻节点进行对应关系补全与传播, 得到图文全局关系相似度;
5)加入基于注意力机制的连边权重剪枝策略, 来增强重要关系展示, 去除无用关系信
息;
6)根据计算出的单模态内部关系相似度、 图文局部关系相似度、 图文全局关系相似度
得到最终图文关系融合相似度, 将关系相似度排序, 取前k个候选集作为与检索例子有高度
语义关联的结果。
2.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法, 其特征在于, 在步
骤1)中, 将采集到的图文数据表示 为:
式中, E表示文本实例, I表示图像实例, y=1表示第一对文本图像数据, 整个式子C表示
Y对图文数据。
3.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法, 其特征在于, 所述
步骤2)包括以下两 部分:
a、 文本特征提取与表示: 给定一个句子E, 采用NLP句法分析工具进行预处理后, 添加两
个特殊的标记: [CLS]和[SEP], 并将其输入预训练的BERT ‑Large模型作为整个模型的文本
编码层, 其计算公式为:
Dx=BERT‑Large(Ex),x∈[1,z]
式中, Ex是包含x个单词的句子向量, Dx代表将句子向量Ex输入到BERT ‑Large模型后的
结果向量, z为组成句子的z个词, 也就是句子中的最大单词量, 将结果向量Dx通过双向GRU
网络即Bi ‑GRU网络映射到 h维嵌入空间中生成最终文本表示, 其计算公式为:
Tx=Bi‑GRU(Dx),x∈[1,z]
式中, Tx表示利用前向GRU和后向GRU读取Dx后的结果;
b、 图像特征提取与表示: 输入一张图像I, 使用Faster ‑RCNN网络结合预训练的ResNet ‑
101提取区域级图像特征; 给定在图像中检测 到的区域i, 在平均池化操作后选择2048维特
征ei, 利用全连接层将ei转换为h维嵌入空间, 其 转换公式为:
vi=Wvei+pv
式中, vi表示区域i的图像特征向量, Wv和pv分别为图像特征向量的权重矩阵和偏差; 图
像区域特征提取的边界框用一个 四维空间坐标Si={Ai,Bi,Gi,Hi}表示, 式中, Si表示区域i
的边界框特征向量, (Ai,Bi)表示框中左上点坐标的横坐标与纵坐标, (Gi,Hi)是边界框的宽
度和高度; 每张图像用一组对象O={o1,o2,…,ot,…,oa}来表示, a代表图像区域数, 每个对权 利 要 求 书 1/5 页
2
CN 115098646 A
2象ot都与图像特征向量vi、 边界框特征向量Si相关联, 整个图像写成O=[v1||S1,v2||S2,…,
vi||Si,…,va||Sa]。
4.根据权利要求1所述的一种图文数据的多级关系分析与挖掘方法, 其特征在于, 所述
步骤3)包括以下两 部分:
a、 文本数据特征表示完后, 构建文本连接图来进行文本内部关系挖掘, 得到文本内部
关系相似度; 首先, 使用NLP句法分析工具识别句子中的语义依赖关系, 采用预训练BERT ‑
Large模型结合Bi ‑GRU网络从输入句子中提取特征向量t; 构建文本连接图时, 将每个单词
设置为节点, 根据句法分析决定单词节点间是否连边, 将文本连接图设为J=(X,F), X是单
词节点的集合, F是边的集合, 记单词节点数为c; 通过内积公 式计算文本连接图中两两单词
节点间相似性, 从而获得 连边权重:
设所求单词表示t的相似矩阵为Q, tx和ty分别表示第x个 单词节点和第y个 单词节点, Qxy
代表第x个和第y个单词节点间的相似性, λ是一个比例因子, 使用参数λ乘以内积结果进行
运算, 利用softmax归一化得Q; 由于F为文本连接图中边的集合, 设f为单词节点之间的连
边, 单词节点间的语义依赖性用连边权 重Wf来表示, 具体公式为:
式中, 矩阵K表示节点的邻接矩阵, 连边权 重Wf通过相似度矩阵Q和邻接矩阵K相乘得到;
b、 图像数据特征表示完后, 构建图像连接图来进行图像内部关系挖掘, 得到图像内部
关系相似度, 主要从空间关系和语义关系两个层面进行; 首先, 给定两个区域对象, 通过三
元组<实体 ‑关系‑实体>形式表示, 即qU,V=<objectU,R,objectV>来表示其空间相对位置, 用
objectU和objectV来表示两个实体, 用R来表示关系信息; 将空间区域图设为Zsp=(v,qsp),
式中, v代表图像特征向量, qsp是带方向性的空间相对位置, qu,v和qv,u是对称方向的边; 原始
GCN不包含有向边, 因此空间图中不同的方向要通过变换矩阵进 行转换; 这里采用带多头注
意力机制的GCN对空间图进 行推理, 把每个注意头的输出特征连接起来, 通过聚焦重要边来
挖掘空间关系, 得到相应的区域图像表示, 其计算公式为:
式中, N表示头注意力的数量, ReLU( ·)是激活函数, N(vi)表示vi的邻居集合, vi表示区
域i的图像特征向量, dir(i,j)为对每条边方向性敏感的变换矩阵,
是一个相关权
重矩阵, αijn是多头注意力系数, vj表示区域i的邻域j的图像特征向量, vi′代表经过多头注
意力机制增强GCN之后得到具有空间关系感知的区域图像特征向量, 注意力系数αij计算公
式为:
式中, Wβ为变换矩阵, Vdir(i,j)表示一个相关变换矩阵, 通过基于注意力的空间关系编码权 利 要 求 书 2/5 页
3
CN 115098646 A
3
专利 一种图文数据的多级关系分析与挖掘方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:29上传分享