(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211190179.2
(22)申请日 2022.09.28
(65)同一申请的已公布的文献号
申请公布号 CN 115269882 A
(43)申请公布日 2022.11.01
(73)专利权人 山东鼹鼠人才知果数据科技有限
公司
地址 250000 山东省济南市历城区经十路
7000号汉峪金谷A3 -1-1505
专利权人 山东文衡科技股份有限公司
山东知比特 数据科技有限公司
(72)发明人 张兰兰 夏傲福 王婷 刘刚
(74)专利代理 机构 北京恒泰铭睿知识产权代理
有限公司 1 1642
专利代理师 郭建明(51)Int.Cl.
G06F 16/38(2019.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 50/18(2012.01)
(56)对比文件
CN 114461890 A,202 2.05.10
CN 113076433 A,2021.07.0 6
CN 113297410 A,2021.08.24
US 20210120 61 A1,2021.01.14
EP 3896581 A1,2021.10.20
李晴晴等.基于外观设计专利的多 模态图像
检索. 《计算机 工程与设计》 .2016,(第09期),
197-202.
审查员 胡碧波
(54)发明名称
基于语义理解的知识产权检索系统及其方
法
(57)摘要
本申请涉及知识产权智能检索的领域, 其具
体地公开了一基于语义理解的知识产权检索系
统及其方法, 其通过使用深度神经网络模型来对
于不同模态的数据, 即专利数据库中各个专利文
本的文本数据和专利附图以及用户的专利检索
请求中的文本数据和图像数据进行深层特征挖
掘并进行融合, 接着通过度量的方式来评估检索
请求与专利文本之间的适配度, 通过这样的方式
来提升专利检索的匹配精准度和查询便利性。
权利要求书4页 说明书16页 附图8页
CN 115269882 B
2022.12.30
CN 115269882 B
1.一种基于语义理解的知识产权检索系统, 其特 征在于, 包括:
专利数据采集单 元, 用于提取专利数据库中各篇专利的文本数据和图片数据;
专利数据编码单元, 用于基于所述各篇专利的文本数据和图片数据生成对应于各篇专
利的专利理解特 征向量;
检索请求获取 单元, 用于获取用户输入的专利检索请求;
检索请求文本编码单元, 用于将所述专利检索请求中的文本数据通过经训练完成的包
含嵌入层的上 下文编码器以得到检索请求文本理解特 征向量;
检索请求图像编码单元, 用于将所述专利检索请求中的图像数据通过经训练完成的作
为过滤器的卷积神经网络以得到检索请求图像理解特 征向量;
级联单元, 用于将所述检索请求文本理解特征向量和所述检索请求图像理解特征向量
进行级联以得到检索请求理解特 征向量;
度量单元, 用于分别计算所述检索请求理解特征向量和对应于各篇专利的专利理解特
征向量之间的距离; 以及
检索结果 生成单元, 用于基于所述距离, 返回专利检索结果;
其中, 所述专利数据编码单 元, 包括:
分段子单元, 用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专利的
段序列;
段语义编码子单元, 用于将所述对应于各篇专利的段序列中各个段进行分词处理后通
过所述包含嵌入层的上 下文编码器以得到对应于各个段的段语义特 征向量;
专利图像特征提取子单元, 用于将所述各篇专利的图片数据通过所述作为过滤器的卷
积神经网络以得到图片理解特 征向量;
上下文增广子单元, 用于以所述图片理解特征向量作为插值单元插入到每两个所述段
语义特征向量之间以得到多模态特 征向量; 以及
多尺度理解子单元, 用于将所述多模态特征向量通过多尺度邻域特征提取模块以得到
所述专利理解特 征向量。
2.根据权利要求1所述的基于语义理解的知识产权检索系统, 其特征在于, 所述段语义
编码子单 元, 进一步用于:
将所述对应于各篇专利的段序列中各个段进行分词处理以得到对应于各个段的词序
列;
使用所述上下文编码器的嵌入层将所述对应于各个段的词序列中各个词分别转化为
词嵌入向量以得到词嵌入向量的序列; 以及
使用所述上下文编码器的基于转换器的Bert模型对所述词嵌入向量的序列进行基于
全局的上 下文语义编码以得到多个词语义特 征向量; 以及
将所述多个词语义特 征向量进行级联以得到所述对应于各个段的段语义特 征向量。
3.根据权利要求2所述的基于语义理解的知识产权检索系统, 其特征在于, 所述多尺度
理解子单 元, 包括:
第一尺度理解二级子单元, 用于将所述多模态特征向量输入所述多尺度邻域特征提取
模块的第一卷积层以得到第一邻域尺度专利理解特征向量, 其中, 所述第一卷积层具有第
一长度的第一 一维卷积核;权 利 要 求 书 1/4 页
2
CN 115269882 B
2第二尺度理解二级子单元, 用于将所述多模态特征向量输入所述多尺度邻域特征提取
模块的第二卷积层以得到第二邻域尺度专利理解特征向量, 其中, 所述第二卷积层具有第
二长度的第二 一维卷积核, 所述第一长度不同于所述第二长度; 以及
多尺度级联二级子单元, 用于将所述第 一邻域尺度专利理解特征向量和所述第 二邻域
尺度专利理解特 征向量进行级联以得到所述专利理解特 征向量。
4.根据权利要求3所述的基于语义理解的知识产权检索系统, 其特征在于, 所述第 一尺
度理解二级子单元, 进一步用于: 使用所述多尺度邻域特征提取模块的第一卷积层以如下
公式对所述多模态特 征向量进行一维卷积编码以得到第一邻域尺度专利理解特 征向量;
其中, 所述公式为:
其中, a为第一卷积核在x方向上的宽度、 F(a)为第一卷积核参数向量、 G(x ‑a)为与卷积
核函数运 算的局部向量矩阵, w 为第一卷积核的尺寸, X表示所述多模态特 征向量;
所述第一尺度理解二级子单元, 进一步用于: 使用所述多尺度邻域特征提取模块的第
二卷积层以如下公式对所述多模态特征向量进行一维卷积编码以得到所述第二邻域尺度
专利理解特 征向量;
其中, 所述公式为:
其中, b为第二卷积核在x方向上的宽度、 F(b)为第二卷积核参数向量、 G(x ‑b)为与卷积
核函数运 算的局部向量矩阵, m为第二卷积核的尺寸, X表示所述多模态特 征向量。
5.根据权利要求4所述的基于语义理解的知识产权检索系统, 其特征在于, 所述度量单
元, 进一步用于分别计算所述检索请求理解特征向量和所述对应于各篇专利的专利理解特
征向量之间的欧式距离 。
6.根据权利要求5所述的基于语义理解的知识产权检索系统, 其特征在于, 所述检索结
果生成单元, 进一步用于: 基于所述欧式距离与预定阈值之间的比较, 返回所述专利检索结
果。
7.根据权利要求6所述的基于语义理解的知识产权检索系统, 其特征在于, 还包括训练
模块, 用于对所述包含嵌入层的上下文编码 器、 所述多尺度邻域提取模块、 所述作为过滤器
的卷积神经网络进行训练;
其中, 所述训练模块, 包括:
训练数据获取单元, 用于获取训练数据, 所述训练数据为专利数据库中各篇专利和训
练用专利检索请求;
训练分段子单元, 用于对所述各篇专利的文本数据进行分段处理以得到对应于各篇专
利的段序列;
训练段语义编码单元, 用于将所述对应于各篇专利的段序列中各个段进行分词处理后
通过所述包含嵌入层的上 下文编码器以得到对应于各个段的训练段语义特 征向量;
训练专利图像特征提取单元, 用于将所述各篇专利的图片数据通过所述作为过滤器的权 利 要 求 书 2/4 页
3
CN 115269882 B
3
专利 基于语义理解的知识产权检索系统及其方法
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:43上传分享