专利 基于多模态数据融合的文本处理系统及其方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211133670.1 (22)申请日 2022.09.19 (65)同一申请的已公布的文献号申请公布号 CN 115203380 A (43)申请公布日 2022.10.18 (73)专利权人山东鼹鼠人才知果数据科技有限公司地址 250000 山东省济南市历城区经十路 7000号汉峪金谷A3 -1-1505 专利权人山东文衡科技股份有限公司　山东知比特数据科技有限公司 (72)发明人张兰兰　夏傲福　王婷　刘刚　 (74)专利代理机构北京恒泰铭睿知识产权代理有限公司 1 1642 专利代理师郭建明 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/18(2012.01) G06V 10/82(2022.01) G06V 30/19(2022.01) G06V 30/416(2022.01) (56)对比文件 US 20210 56127 A1,2021.02.25 CN 112241468 A,2021.01.19 WO 20171241 16 A1,2017.07.20 CN 113111970 A,2021.07.13 US 2021216862 A1,2021.07.15 刘建伟等.多模态深度学习综述. 《计算机应用研究》 .2020,第37 卷(第06期),1601-1614. 审查员王志超 (54)发明名称基于多模态数据融合的文本处理系统及其方法 (57)摘要本申请涉及多模态智能检索的领域，其具体地公开了一种基于多模态数据融合的文本处理系统及其方法，其通过深度神经网络模型分别对于所述用户输入的知识产权检索请求中的文本数据和图像数据分别进行特征提取，并在融合上述两者不同模态数据的特征表示后将融合得到的多模态需求表达矩阵通过多标签分类器以得到用于表示用户输入的知识产权检索请求对应的主题标签的分类结果，这样通过多模态数据融合的方式对用户输入的知识产权检索请求进行更为准确地语义理解，以提高后续检索结果的适配度。权利要求书3页说明书14页附图7页 CN 115203380 B 2022.12.20 CN 115203380 B 1.一种基于多模态数据融合的文本处理系统，其特征在于，包括：检索请求接收模块，用于获取用户输入的知识产权检索请求；文本语义编码模块，用于将所述知识产权检索请求中的文本数据通过包含嵌入层的上下文编码器以得到多个语义特征向量；文本多尺度语义关联编码模块，用于将所述多个语义特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到多尺度文本理解特征向量；图像特征提取模块，用于将所述知识产权检索请求中的图像数据通过作为过滤器的第一卷积神经网络以得到图像理解特征向量；多模态关联编码模块，用于计算所述图像理解特征向量的转置向量与所述多尺度文本理解特征向量之间的乘积以得到多模态需求表达矩阵；多模态表达校正模块，用于基于所述多模态需求表达矩阵中各个位置的位置特征值，分别对所述多模态需求表达矩阵中各个位置的特征值进行校正以得到校正后多模态需求表达矩阵；以及文本处理结果生成模块，用于将所述校正后多模态需求表达矩阵通过多标签分类器以得到分类结果，所述分类结果用于表示用户输入的知识产权检索请求对应的主题标签；其中，所述多模态表达校正模块，包括：位置特征矩阵计算单元，用于将所述多模态需求表达矩阵中各个位置的二维坐标映射为一维数值以得到位置特征矩阵，其中，所述一维数值为位置特征值；全局特征语义推理单元，用于对所述多模态需求表达矩阵进行通过卷积层的局部感知场和全局正交变换以得到全局语义推理特征矩阵；以及位置信息作用单元，用于计算所述位置特征矩阵和所述全局语义推理特征矩阵的按位置点乘以得到所述校正后多模态需求表达矩阵；其中，所述全局特征语义推理单元，进一步用于：以如下公式对所述多模态需求表达矩阵进行通过卷积层的局部感知场和全局正交变换以得到所述全局语义推理特征矩阵；其中，所述公式为：其中， M表示所述多模态需求表达矩阵， MT表示所述多模态需求表达矩阵的转置矩阵， Mc 表示所述全局语义推理特征矩阵， Cov1()和Cov2()均为单个卷积层，表示矩阵的按位置加法。 2.根据权利要求1所述的基于多模态数据融合的文本处理系统，其特征在于，所述文本语义编码模块，包括：词序列转化单元，用于对所述知识产权检索请求中的文本数据进行分词处理以将所述知识产权检索请求中的文本数据分别转化为由多个词组成的词序列；嵌入编码单元，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及上下文全局编码单元，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量。 3.根据权利要求2所述的基于多模态数据融合的文本处理系统，其特征在于，所述文本多尺度语义关联编码模块，包括：权　利　要　求　书 1/3 页 2 CN 115203380 B 2第一片语维度编码单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一邻域尺度文本理解特征向量，其中，所述第一卷积层具有第一长度的第一一维卷积核；第二片语维度编码单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二邻域尺度文本理解特征向量，其中，所述第二卷积层具有第二长度的第二一维卷积核，所述第一长度不同于所述第二长度；以及级联单元，用于将所述第一邻域尺度文本理解特征向量和所述第二邻域尺度文本理解特征向量进行级联以得到所述多尺度文本理解特征向量。 4.根据权利要求3所述的基于多模态数据融合的文本处理系统，其特征在于，所述第一片语维度编码单元，进一步用于：使用所述多尺度邻域特征提取模块的第一卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第一邻域尺度文本理解特征向量；其中，所述公式为：其中， a为第一卷积核在x方向上的宽度、 F(a)为第一卷积核参数向量、 G(x ‑a)为与卷积核函数运算的局部向量矩阵， w 为第一卷积核的尺寸， X表示一维特征向量。 5.根据权利要求4所述的基于多模态数据融合的文本处理系统，其特征在于，所述第二片语维度编码单元，进一步用于：使用所述多尺度邻域特征提取模块的第二卷积层以如下公式对所述一维特征向量进行一维卷积编码以得到所述第二邻域尺度文本理解特征向量；其中，所述公式为：其中， b为第二卷积核在x方向上的宽度、 F(b)为第二卷积核参数向量、 G(x ‑b)为与卷积核函数运算的局部向量矩阵， m为第二卷积核的尺寸， X表示所述一维特征向量。 6.根据权利要求5所述的基于多模态数据融合的文本处理系统，其特征在于，所述图像特征提取模块，进一步用于：所述作为过滤器的第一卷积神经网络的各层在层的正向传递中分别进行：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于局部特征矩阵的均值池化处理以得到池化特征图；以及对所述池化特征图进行非线性激活以得到激活特征图；其中，所述作为过滤器的第一卷积神经网络的最后一层的输出为所述图像理解特征向量，所述作为过滤器的第一卷积神经网络的第一层的输入为所述知识产权检索请求中的图像数据。 7.根据权利要求6所述的基于多模态数据融合的文本处理系统，其特征在于，所述文本处理结果生成模块，进一步用于：使用所述多标签分类器以如下公式对所述校正后多模态需求表达矩阵进行处理以生成所述分类结果；其中，所述公式为：权　利　要　求　书 2/3 页 3 CN 115203380 B 3

专利 基于多模态数据融合的文本处理系统及其方法

专利基于多模态数据融合的文本处理系统及其方法