专利 一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211075127.0 (22)申请日 2022.09.03 (71)申请人安徽信息工程学院地址 241100 安徽省芜湖市湾沚区永和路1 号 (72)发明人汪忠国　张宝　 (74)专利代理机构广州高炬知识产权代理有限公司 44376 专利代理师程文斌 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法 (57)摘要本发明涉及信息检索与数据挖掘技术领域，具体为一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，基于中文语义相似度语料库LCQMC构建的中文文本相似度计算模型 MAS‑Bi‑LSTM(Multi ‑attentionSiameseBi ‑ LSTM)模型，所述MAS ‑Bi‑LSTM模型包括输入层、嵌入层、孪生网络层以及相似度计算层四者构成，基于孪生网络的中文语义相似度计算方法。本发明提出一种基于多头注意力机制孪生Bi ‑ LSTM的中文文本相似度计算模型MAS ‑Bi‑LSTM (Multi‑attentionSiameseBi ‑LSTM)，利用对称孪生Bi‑LSTM结构计算每个文本的语义特征，同时通过多头注意力机制对语义特征进行重新赋权，有效捕获句子中词语之间的语义信息，并结合多头注意力机制全局化特征加权弥补双向RNN 全局化处理能力的不足。权利要求书2页说明书7页附图2页 CN 115495550 A 2022.12.20 CN 115495550 A 1.一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于，基于中文语义相似度语料库LCQMC构建的中文文本相似度计算模型MAS ‑Bi‑LSTM(Multi ‑ attention Siamese Bi‑LSTM)模型，所述MAS ‑Bi‑LSTM模型包括输入层、嵌入层、孪生网络层以及相似度计算层四者构成，基于孪生网络的中文语义相似度计算方法，包括如下步骤： S1：首先，根据词嵌入模型理论，利用Word2Vec技术生成的预训练词向量得到各中文分词的词向量； S2：其次，在通用语料库LCQMC上基于多头注意力机制的孪生Bi ‑LSTM网络模型输出中文语句的加权词向量组合； S3：最后，通过曼哈顿空间距离算法，输出各组语义序列的相似度值。 2.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：所述输入层主要是对输入文本text a和text b进行预处理，并将预处理结果作为嵌入层的输入。以对text a的处理为例(对text b的处理类似)，输入层首先使用Jieba词库进行分词处理，然后使用停用词库进行停用词去除，之后统计分词后的文本生成文档词典，填充序列使输入文本序列的长度保持一致。 3.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：所述文本序列最大长度L＝200，大于L的进行截断，小于L的用0值进行填充。经过预处理后， text a可表示为Sa＝{C1,C2,...,CL}，其中L为文本序列最大长度， Ci为每个分词结果。 4.根据权利要求3所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：所述嵌入层使用Word2Vec中的Skip ‑Gram模型，将输入层生成的Sa， Sb 中的每个Ci转化成词向量Ei，并作为下一层孪生Bi‑LSTM网络的输入。 Skip‑Gram模型通过目标词汇来预测源词汇，模型中隐藏层的神经单元数量，代表着每一个词用向量表示的维度大小，输出层使用sotfmax函数得到每一个预测结果的概率，模型选用交叉熵损失函数进行梯度下降算法优化，并得到权重矩阵W。每个词向量Ei通过下述公式进行计算： Ei＝xiWV×N 其中， xi为单词Ci基于词表索引的one ‑hot编码； V为one ‑hot编码的长度，即词表索引的长度； N为词向量的维度，本模型使用的词向量维度为3 00。 5.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：孪生Bi ‑LSTM网络输出的向量表示为H＝[h1， h2， h3， ...， hn]，多头注意力机制把神经网络输出的向量表达经过系列运算得到加权求和的结果，权重的大小表示该特征的重要程度。注意力机制分为三步。 6.根据权利要求5所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：所述注意力机制三步如下：第一步： Bi‑LSTM输出的hi传输到一个全连接层，得到的注意力权值 μi： μi＝tanh(Whhi) 其中， Wh是注意力模型计算权重的系数， tanh是激活函数。第二步：将权值进行归一化，得到直接可用的权重αi，具体公式如下：权　利　要　求　书 1/2 页 2 CN 115495550 A 2其中， λ为系数值，计算得到的α 值代表句子中每个词向量的重要程度。第三步：将权重和value进行加权求和，就得到经A ttention机制加权后的语义向量Si： Si＝∑iαihi 其中， αi为第二步计算的每个词向量的权重值。多头注意力机制是上述注意力机制重复多次，也就是所谓的多头，每个头之间参数不共享，然后对多个S进行拼接，最后通过一次线型变换得到多头注意力机制的最后输出，也就是输入层每句话的语义序列向量表示。 7.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：所述多头注意力机制层的输出为语义序列向量Sa， Sb，相似度计算层主要计算Sa和Sb在语义空间中的相似程度。本发明通过曼哈顿空间距离作为评价标准，计算两个语句的相似度值，范围在[0,1]之间。 similarity＝exp( ‑|Sa‑Sb|) 输出结果大于 0.5的认为相似，标记为1；小于等于 0.5的认为不相似，标记为0 。 8.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：验证MAS ‑Bi‑LSTM模型的有效性，实验选取CNN和RNN常用深度学习模型做对比，分别为Text CNN、 GRU、 Bi ‑GRU、 LSTM以及添加多头注意力机制的Text CNN(MA)、 GRU (MA)、 Bi‑GRU(MA)五种模型。 9.根据权利要求8所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法，其特征在于：所述词嵌入层选择基于中文维基百科的预训练词向量，多头注意力机制的头数选择4，距离公式选择曼哈顿空间距离公式。权　利　要　求　书 2/2 页 3 CN 115495550 A 3

专利 一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法

专利一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法