(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211075127.0
(22)申请日 2022.09.03
(71)申请人 安徽信息 工程学院
地址 241100 安徽省芜湖市湾沚区永和路1
号
(72)发明人 汪忠国 张宝
(74)专利代理 机构 广州高炬知识产权代理有限
公司 44376
专利代理师 程文斌
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于多头注意力孪生Bi-LSTM网络的中
文语义相似度计算方法
(57)摘要
本发明涉及信息检索与数据挖掘技术领域,
具体为一种基于多头注意力孪生Bi ‑LSTM网络的
中文语义相似度计算方法, 基于中文语义相似度
语料库LCQMC构建的中文文本相似度计算模型
MAS‑Bi‑LSTM(Multi ‑attentionSiameseBi ‑
LSTM)模型, 所述MAS ‑Bi‑LSTM模型包括输入层、
嵌入层、 孪生网络层以及相似度计算层四者构
成, 基于孪生网络的中文语义相似度计算方法。
本发明提出一种基于多头注意力机制孪生Bi ‑
LSTM的中文文本相似度计算模型MAS ‑Bi‑LSTM
(Multi‑attentionSiameseBi ‑LSTM), 利用对称
孪生Bi‑LSTM结构计算每个文本的语义特征, 同
时通过多头注意力机制对语义特征进行重新赋
权, 有效捕获句子中词语之间的语义信息, 并结
合多头注 意力机制全局化特征加权弥补双向RNN
全局化处 理能力的不足。
权利要求书2页 说明书7页 附图2页
CN 115495550 A
2022.12.20
CN 115495550 A
1.一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计算方法, 其特征在于, 基
于中文语义相似度语料库LCQMC构建的中文文本相似度计算模型MAS ‑Bi‑LSTM(Multi ‑
attention Siamese Bi‑LSTM)模型, 所述MAS ‑Bi‑LSTM模型包括输入层、 嵌入层、 孪生网络
层以及相似度计算层四者构成, 基于 孪生网络的中文语义相似度计算方法, 包括如下步骤:
S1: 首先, 根据词嵌入模型理论, 利用Word2Vec技术生成的预训练词向量得到各中文分
词的词向量;
S2: 其次, 在通用语料库LCQMC上基于多头注意力机制的孪生Bi ‑LSTM网络模型输出中
文语句的加权词向量组合;
S3: 最后, 通过 曼哈顿空间距离算法, 输出 各组语义序列的相似度值。
2.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 所述输入层 主要是对输入文本text a和text b进行预处理, 并将预处
理结果作为嵌入层的输入。 以对text a的处理为例(对text b的处理类似), 输入层首先使
用Jieba词 库进行分词处理, 然后使用停用词 库进行停用词去除, 之后统计 分词后的文本生
成文档词典, 填充序列使输入文本序列的长度保持一 致。
3.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 所述文本序列最大长度L=200, 大于L的进 行截断, 小于L的用0值进 行
填充。 经过预处理后, text a可表示为Sa={C1,C2,...,CL}, 其中L为文本序列最大长度, Ci为
每个分词结果。
4.根据权利要求3所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 所述嵌入层使用Word2Vec中的Skip ‑Gram模型, 将输入层生成的Sa, Sb
中的每个Ci转化成词向量Ei, 并作为下一层孪 生Bi‑LSTM网络的输入 。 Skip‑Gram模型通 过目
标词汇来预测源词汇, 模型中隐藏层的神经单元数量, 代表着每一个词用向量表示的维度
大小, 输出层 使用sotfmax函数得到每一个预测结果的概率, 模型选用交叉熵损失函数进 行
梯度下降算法优化, 并得到 权重矩阵W。 每 个词向量Ei通过下述公式进行计算:
Ei=xiWV×N
其中, xi为单词Ci基于词表索引的one ‑hot编码; V为one ‑hot编码的长度, 即词表索引的
长度; N为词向量的维度, 本模型使用的词向量维度为3 00。
5.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 孪生Bi ‑LSTM网络输出的向量表示为H=[h1, h2, h3, ..., hn], 多头注意
力机制把神经网络输出的向量表达经过系列运算得到加权求和的结果, 权重的大小表示该
特征的重要程度。 注意力机制分为 三步。
6.根据权利要求5所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特 征在于: 所述注意力机制三 步如下:
第一步: Bi‑LSTM输出的hi传输到一个全连接层, 得到的注意力权值 μi:
μi=tanh(Whhi)
其中, Wh是注意力模型计算权 重的系数, tanh是激活函数。
第二步: 将权值进行归一 化, 得到直接可用的权 重αi, 具体公式如下:权 利 要 求 书 1/2 页
2
CN 115495550 A
2其中, λ为系数值, 计算得到的α 值代 表句子中每 个词向量的重要程度。
第三步: 将权重和value进行加权求和, 就得到经A ttention机制加权后的语义向量Si:
Si=∑iαihi
其中, αi为第二步计算的每 个词向量的权 重值。
多头注意力机制是上述注意力机制重复多次, 也就是所谓的多头, 每个头之间参数不
共享, 然后对多个S进行拼接, 最后通过一次线型变换得到多头注意力机制的最后输出, 也
就是输入层每句话的语义序列向量表示。
7.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 所述多 头注意力机制层的输出为语义序列向量Sa, Sb, 相似度计 算层主
要计算Sa和Sb在语义空 间中的相似程度。 本发明通 过曼哈顿空 间距离作为评价标准, 计 算两
个语句的相似度值, 范围在[0,1]之间。
similarity=exp( ‑|Sa‑Sb|)
输出结果大于 0.5的认为相似, 标记为1; 小于等于 0.5的认为 不相似, 标记为0 。
8.根据权利要求1所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 验证MAS ‑Bi‑LSTM模型的有效性, 实验选取CNN和RNN常用深度学习模
型做对比, 分别为Text CNN、 GRU、 Bi ‑GRU、 LSTM以及添加多头注意力机制的Text CNN(MA)、 GRU
(MA)、 Bi‑GRU(MA)五种模型。
9.根据权利要求8所述的一种基于多头注意力孪生Bi ‑LSTM网络的中文语义相似度计
算方法, 其特征在于: 所述词嵌入层选择基于中文维基百科的预训练词向量, 多头注意力机
制的头数选择4, 距离公式选择 曼哈顿空间距离公式。权 利 要 求 书 2/2 页
3
CN 115495550 A
3
专利 一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:55上传分享