专利 一种基于多注意力机制的专利技术相似性量化方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210890494.X (22)申请日 2022.07.27 (71)申请人江苏科技大学地址 212003 江苏省镇江市京口区梦溪路2 号 (72)发明人王飞　徐泰华　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师柏尚春 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于多注意力机制的专利技术相似性量化方法和系统 (57)摘要本发明公开了一种基于多注意力机制的专利技术相似性量化方法和系统，所述方法包括以下步骤： (1)基于语义关联性和分布关联性构建注意力权重进行专利摘要词汇与标题词汇之间的主题视角对齐； (2)基于注意力机制进行关联专利摘要词汇与查询专利摘要词汇之间的量化视角对齐； (3)基于主题一致性和量化一致性构建融合预测模型用于量化查询专利和关联专利之间的技术相似性。本发明基于主题一致性和量化一致性构建伪查询专利，通过对查询专利与伪查询专利之间的语义差异进行非线性的连接变换，形成查询专利和关联专利之间的语义相似度，实现了公共语境下的技术相似性量化，有助于在保证准确率的基础上提升召回率。权利要求书3页说明书7页附图1页 CN 115374244 A 2022.11.22 CN 115374244 A 1.一种基于多注意力机制的专利技术相似性量化方法，其特征在于，包括以下步骤： (1)基于专利摘要词汇与标题词汇构建语义关联和分布关联，用于量化专利技术特征的主题一致性； (2)基于查询专利技术特征进行关联专利技术词汇的注意力聚焦，用于构建专利技术特征的量化一致性； (3)基于主题一致性和量化一致性构建面向查询专利技术特征的伪查询专利，实现在公共语境下进行专利技术相似性量化工作。 2.根据权利要求1所述的一种基于多注意力机制的专利技术相似性量化方法，其特征在于，所述步骤(1)具体为： (1.1)基于专利数据不同文本域构建专利文本训练集，通过词向量技术进行专利文本词汇的向量化表示； (1.1.1)专利标题域和摘要域拼接形成文本域，进行数据清洗，处理方式包括标点符号清除、停用词移除、词汇溯源，进而形成以特定符号间隔的专利词汇文本集； (1.1.2)专利词汇文本集经过词向量工具训练生成一个词向量映射函数，每一个单词经过映射函数投影成一个高维向量； (1.2)专利文本的概率词频形成分布关联性，词汇间的语义距离形成语义关联性，融合两种关联性构建专利摘要词汇的主题一致性； (1.2.1)一件专利的词汇文本集分为一个标题词汇集W＝(w1,w2,…,wk)和一个摘要词汇集U＝(u1,u2,…,un)； (1.2.2)基于一件专利的摘要词汇集量化专利的分布关联性，量化方法如下： Pα＝( α1, α2,…, αn) 其中， αi是摘要词汇ui的分布关联性权重，即摘要词汇词频； (1.2.3)基于一件专利的摘要词汇ui与标题词汇集W量化专利的语义关联性，量化方法如下： Pβ＝( β1, β2,…, βn) 其中， βi是摘要词汇ui的语义关联性权重，即摘要词汇ui与每一个标题词汇wj语义距离累加和的均值， φ是一个词向量映射函数， sim(*,*)则是一个词向量的语义计算函数； (1.2.4)基于一件专利的分布关联性和语义关联性量化专利的主题一致性，量化方法如下： M＝(m1,m2,…,mn)＝softmax(Pα*Pβ) 其中， mi是摘要词汇的主题一致性权重， softmax(*)是一个规范权重分布的函数。 3.根据权利要求1所述的一种基于多注意力机制的专利技术相似性量化方法，其特征权　利　要　求　书 1/3 页 2 CN 115374244 A 2在于，所述步骤(2)具体为： (2.1)Q＝(w1,w2,…,wn)是查询专利的词汇文本集， D＝(u1,u2,…,um)则是关联专利的词汇文本集； (2.2)基于注意力机制计算查询专利词汇wi和关联专利词汇文本集D＝(u1,u2,…,um)之间的量化一致性方法如下： Ai＝(ai1,ai2,…,aim) 其中， score(*,*)是一个基于注意力机制的关联性量化函数； (2.3)查询专利Q＝(w1,w2,…,wn)和关联专利D＝(u1,u2,…,um)的量化一致性矩阵形式化如下：其中， aij是查询专利词汇wi和关联专利词汇uj的量化一致性权重。 4.根据权利要求1所述的一种基于多注意力机制的专利技术相似性量化方法，其特征在于，所述步骤(3)具体为： (3.1)基于专利的主题一致性权重和量化一致性权重构建语义融合矩阵，用于生成面向查询专利的伪查询专利； (3.1.1)查询专利Q＝{ w1,w2,…,wn}的主题一致性权重是MQ＝{mq1,mq2,…,mqn}，而关联专利D＝{u1,u2,…,um}的主题一致性权重是MD＝{md1,md2,…,mdm}； (3.1.2)基于专利的主题一致性权重和量化一致性权重构建语义融合矩阵，构建方法如下： cij＝mqi*aij*mdj 其中， tij是wi和uj的语义融合权重， mqi是wi的主题一致性权重， mdj是uj的主题一致性权重， aij是wi和uj的量化一致性权重； (3.1.3)对于每一个查询专利词汇wi，使用语义融合矩阵和关联专利词汇D＝{u1, u2,…,um}构建伪查询专利词汇，构建方式如下：其中，是面向查询专利词汇wi构建的伪查询专利词汇向量，是关联专利中语义融合权权　利　要　求　书 2/3 页 3 CN 115374244 A 3

专利 一种基于多注意力机制的专利技术相似性量化方法和系统

专利一种基于多注意力机制的专利技术相似性量化方法和系统