(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211133670.1
(22)申请日 2022.09.19
(65)同一申请的已公布的文献号
申请公布号 CN 115203380 A
(43)申请公布日 2022.10.18
(73)专利权人 山东鼹鼠人才知果数据科技有限
公司
地址 250000 山东省济南市历城区经十路
7000号汉峪金谷A3 -1-1505
专利权人 山东文衡科技股份有限公司
山东知比特 数据科技有限公司
(72)发明人 张兰兰 夏傲福 王婷 刘刚
(74)专利代理 机构 北京恒泰铭睿知识产权代理
有限公司 1 1642
专利代理师 郭建明
(51)Int.Cl.
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 50/18(2012.01)
G06V 10/82(2022.01)
G06V 30/19(2022.01)
G06V 30/416(2022.01)
(56)对比文件
US 20210 56127 A1,2021.02.25
CN 112241468 A,2021.01.19
WO 20171241 16 A1,2017.07.20
CN 113111970 A,2021.07.13
US 2021216862 A1,2021.07.15
刘建伟等.多 模态深度学习综述. 《计算机 应
用研究》 .2020,第37 卷(第06期),1601-1614.
审查员 王志超
(54)发明名称
基于多模态数据融合的文本处理系统及其
方法
(57)摘要
本申请涉及 多模态智能检索的领域, 其具体
地公开了一种基于多模态数据融合的文本处理
系统及其方法, 其通过深度神经网络模型分别对
于所述用户输入的知识产权检索请求中的文本
数据和图像数据分别进行特征提取, 并在融合上
述两者不同模态数据的特征表示后将融合得到
的多模态需求表达矩 阵通过多标签分类器以得
到用于表示用户输入的知识产权检索请求对应
的主题标签的分类结果, 这样通过多模态数据融
合的方式对用户输入的知识产权检索请求进行
更为准确地语义理解, 以提高后续检索结果的适
配度。
权利要求书3页 说明书14页 附图7页
CN 115203380 B
2022.12.20
CN 115203380 B
1.一种基于多模态数据融合的文本处 理系统, 其特 征在于, 包括:
检索请求接收模块, 用于获取用户输入的知识产权检索请求;
文本语义编码模块, 用于将所述知识产权检索请求中的文本数据通过包含嵌入层的上
下文编码器以得到多个 语义特征向量;
文本多尺度语义关联编码模块, 用于将所述多个语义特征向量排列为一维特征向量后
通过多尺度邻域特 征提取模块以得到多尺度文本理解特 征向量;
图像特征提取模块, 用于将所述知识产权检索请求中的图像数据通过作为过滤器的第
一卷积神经网络以得到图像理解特 征向量;
多模态关联编码模块, 用于计算所述图像理解特征向量的转置向量与 所述多尺度文本
理解特征向量之间的乘积以得到多模态需求表达矩阵;
多模态表达校正模块, 用于基于所述多模态需求表达矩阵中各个位置的位置特征值,
分别对所述多模态需求表达矩阵中各个位置的特征值进行校正以得到校正后多模态需求
表达矩阵; 以及
文本处理结果生成模块, 用于将所述校正后多模态需求表达矩阵通过多标签分类器以
得到分类结果, 所述分类结果用于表示用户输入的知识产权检索请求对应的主题标签;
其中, 所述多模态 表达校正模块, 包括:
位置特征矩阵计算单元, 用于将所述多模态需求表达矩阵中各个位置的二维坐标映射
为一维数值以得到位置特 征矩阵, 其中, 所述 一维数值 为位置特征值;
全局特征语义推理单元, 用于对所述多模态需求表达矩阵进行通过卷积层的局部感知
场和全局正交变换以得到全局语义推理特 征矩阵; 以及
位置信息作用单元, 用于计算所述位置特征矩阵和所述全局语义推理特征矩阵的按位
置点乘以得到所述校正后多模态需求表达矩阵;
其中, 所述全局特征语义推理单元, 进一步用于: 以如下公式对所述多模态需求表达矩
阵进行通过 卷积层的局部感知场和全局正交变换以得到所述全局语义推理特 征矩阵;
其中, 所述公式为:
其中, M表示所述多模态需求表达矩阵, MT表示所述多模态需求表达矩阵的转置矩阵, Mc
表示所述全局语义推理特征矩阵, Cov1()和Cov2()均为单个卷积层,
表示矩阵的按位置
加法。
2.根据权利要求1所述的基于多模态数据融合的文本处理系统, 其特征在于, 所述文本
语义编码模块, 包括:
词序列转化单元, 用于对所述知识产权检索请求中的文本数据进行分词处理以将所述
知识产权检索请求中的文本数据分别转 化为由多个词组成的词序列;
嵌入编码单元, 用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各
个词映射到词向量以获得词向量的序列; 以及
上下文全局编码单元, 用于使用所述包含嵌入层的上下文编码器的转化器对所述词向
量的序列进行基于全局的上 下文语义编码以获得 所述多个 语义特征向量。
3.根据权利要求2所述的基于多模态数据融合的文本处理系统, 其特征在于, 所述文本
多尺度语义关联编码模块, 包括:权 利 要 求 书 1/3 页
2
CN 115203380 B
2第一片语维度编码单元, 用于将所述一维特征向量输入所述多尺度邻域特征提取模块
的第一卷积层以得到第一邻域尺度文本理解特征向量, 其中, 所述第一卷积层具有第一长
度的第一 一维卷积核;
第二片语维度编码单元, 用于将所述一维特征向量输入所述多尺度邻域特征提取模块
的第二卷积层以得到第二邻域尺度文本理解特征向量, 其中, 所述第二卷积层具有第二长
度的第二 一维卷积核, 所述第一长度不同于所述第二长度; 以及
级联单元, 用于将所述第 一邻域尺度文本理解特征向量和所述第 二邻域尺度文本理解
特征向量进行级联以得到所述多尺度文本理解特 征向量。
4.根据权利要求3所述的基于多模态数据融合的文本处理系统, 其特征在于, 所述第 一
片语维度编码单元, 进一步用于: 使用所述多尺度邻域特征提取模块的第一卷积层以如下
公式对所述 一维特征向量进行一维卷积编码以得到所述第一邻域尺度文本理解特 征向量;
其中, 所述公式为:
其中, a为第一卷积核在x方向上的宽度、 F(a)为第一卷积核参数向量、 G(x ‑a)为与卷积
核函数运 算的局部向量矩阵, w 为第一卷积核的尺寸, X表示 一维特征向量。
5.根据权利要求4所述的基于多模态数据融合的文本处理系统, 其特征在于, 所述第 二
片语维度编码单元, 进一步用于: 使用所述多尺度邻域特征提取模块的第二卷积层以如下
公式对所述 一维特征向量进行一维卷积编码以得到所述第二邻域尺度文本理解特 征向量;
其中, 所述公式为:
其中, b为第二卷积核在x方向上的宽度、 F(b)为第二卷积核参数向量、 G(x ‑b)为与卷积
核函数运 算的局部向量矩阵, m为第二卷积核的尺寸, X表示所述 一维特征向量。
6.根据权利要求5所述的基于多模态数据融合的文本处理系统, 其特征在于, 所述图像
特征提取模块, 进一步用于: 所述作为过滤器的第一卷积神经网络的各层在层的正向传递
中分别进行:
对输入数据进行 卷积处理以得到卷积特 征图;
对所述卷积特 征图进行基于局部特 征矩阵的均值池化处 理以得到池化特 征图; 以及
对所述池化特 征图进行非线性激活以得到 激活特征图;
其中, 所述作为过滤器的第 一卷积神经网络的最后 一层的输出为所述图像理解特征向
量, 所述作为过滤器的第一卷积神经网络的第一层的输入为所述知识产权检索请求中的图
像数据。
7.根据权利要求6所述的基于多模态数据融合的文本处理系统, 其特征在于, 所述文本
处理结果生成模块, 进一步用于: 使用所述多标签分类器以如下公式对所述校正后多模态
需求表达矩阵进行处 理以生成所述分类结果;
其中, 所述公式为:权 利 要 求 书 2/3 页
3
CN 115203380 B
3
专利 基于多模态数据融合的文本处理系统及其方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:48上传分享