(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210890494.X
(22)申请日 2022.07.27
(71)申请人 江苏科技大学
地址 212003 江苏省镇江市京口区梦溪路2
号
(72)发明人 王飞 徐泰华
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 柏尚春
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于多注意力机制的专利技术相似性
量化方法和系统
(57)摘要
本发明公开了一种基于多注意力机制的专
利技术相似性量化方法和系统, 所述方法包括以
下步骤: (1)基于语义关联性和分布关联性构建
注意力权重进行专利摘要词汇与标题词汇之间
的主题视角对齐; (2)基于注意力机制进行关联
专利摘要词汇与查询专利摘要词汇之间的量化
视角对齐; (3)基于主题一致性和量化一致性构
建融合预测模型用于量化查询专利和关联专利
之间的技术相似性。 本发明基于主题 一致性和量
化一致性构建伪查询专利, 通过对查询专利与伪
查询专利之间的语义差异进行非线性的连接变
换, 形成查询专利和关联专利之间的语义相似
度, 实现了公共语境下的技术相似性量化, 有助
于在保证准确率的基础上提升召回率。
权利要求书3页 说明书7页 附图1页
CN 115374244 A
2022.11.22
CN 115374244 A
1.一种基于多注意力机制的专利技 术相似性 量化方法, 其特 征在于, 包括以下步骤:
(1)基于专利摘要词汇与标题词汇构建语义关联和分布关联, 用于量化专利技术特征
的主题一 致性;
(2)基于查询专利技术特征进行关联专利技术词汇 的注意力聚焦, 用于构建专利技术
特征的量化一致性;
(3)基于主题一致性和量化一致性构建面向查询专利技术特征的伪查询专利, 实现在
公共语境下进行专利技 术相似性 量化工作。
2.根据权利要求1所述的一种基于多注意力机制的专利技术相似性量化方法, 其特征
在于, 所述 步骤(1)具体为:
(1.1)基于专利数据不同文本域构建专利文本训练集, 通过词向量技术进行专利文本
词汇的向量 化表示;
(1.1.1)专利标题域和摘要域拼接形成文本域, 进行数据清洗, 处理方式包括标点符号
清除、 停用词移除、 词汇溯源, 进 而形成以特定符号间隔的专利词汇文本集;
(1.1.2)专利词汇文本集经过词向量工具训练生成一个词向量映射函数, 每一个单词
经过映射函数投影成一个高维向量;
(1.2)专利文本的概率词频形成分布关联性, 词 汇间的语义距离形成语义关联性, 融合
两种关联性构建专利 摘要词汇的主题一 致性;
(1.2.1)一件专利的词汇文本集分为一个标题词汇集W=(w1,w2,…,wk)和一个摘要词
汇集U=(u1,u2,…,un);
(1.2.2)基于一件专利的摘要词汇集 量化专利的分布关联性, 量 化方法如下:
Pα=( α1, α2,…, αn)
其中, αi是摘要词汇ui的分布关联性权 重, 即摘要词汇词频;
(1.2.3)基于一件专利的摘要词汇ui与标题词汇集W量化专利的语义关联性, 量化方法
如下:
Pβ=( β1, β2,…, βn)
其中, βi是摘要词汇ui的语义关联性权重, 即摘要词汇ui与每一个标题词汇wj语义距离
累加和的均值, φ是一个词向量映射 函数, sim(*,*)则是一个词向量的语义计算 函数;
(1.2.4)基于一件专利的分布关联性和语义关联性量化专利的主题一致性, 量化方法
如下:
M=(m1,m2,…,mn)=softmax(Pα*Pβ)
其中, mi是摘要词汇的主题一 致性权重, softmax(*)是一个规范权 重分布的函数。
3.根据权利要求1所述的一种基于多注意力机制的专利技术相似性量化方法, 其特征权 利 要 求 书 1/3 页
2
CN 115374244 A
2在于, 所述 步骤(2)具体为:
(2.1)Q=(w1,w2,…,wn)是查询专利的词汇文本集, D=(u1,u2,…,um)则是关联专利的
词汇文本集;
(2.2)基于注意力机制计算查询专利词汇wi和关联专利词汇文本集D=(u1,u2,…,um)之
间的量化一致性方法如下:
Ai=(ai1,ai2,…,aim)
其中, score(*,*)是一个 基于注意力机制的关联性 量化函数;
(2.3)查询专利Q=(w1,w2,…,wn)和关联专利D=(u1,u2,…,um)的量化一致性矩阵形式
化如下:
其中, aij是查询专利词汇wi和关联专利词汇uj的量化一致性权重。
4.根据权利要求1所述的一种基于多注意力机制的专利技术相似性量化方法, 其特征
在于, 所述 步骤(3)具体为:
(3.1)基于专利的主题一致性权重和量化一致性权重构建语义融合矩阵, 用于生成面
向查询专利的伪查询专利;
(3.1.1)查询专利Q={ w1,w2,…,wn}的主题一致性权重是MQ={mq1,mq2,…,mqn}, 而关联
专利D={u1,u2,…,um}的主题一 致性权重是MD={md1,md2,…,mdm};
(3.1.2)基于专利的主题一致性权重和量化一致性权重构建语义融合矩阵, 构建方法
如下:
cij=mqi*aij*mdj
其中, tij是wi和uj的语义融合权重, mqi是wi的主题一致性权重, mdj是uj的主题一致性权
重, aij是wi和uj的量化一致性权重;
(3.1.3)对于每一个查询专利词汇wi, 使用语义融合矩阵和关联专利词汇D={u1,
u2,…,um}构建伪查询专利词汇, 构建方式如下:
其中,
是面向查询专利词汇wi构建的伪查询专利词汇向量, 是关联专利中语义融合权权 利 要 求 书 2/3 页
3
CN 115374244 A
3
专利 一种基于多注意力机制的专利技术相似性量化方法和系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:26上传分享