专利 一种基于人工智能的文本匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211226353.4 (22)申请日 2022.10.09 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人王进　陈怡雯　朴昌浩　刘彬　杜雨露　邓欣　孙开伟　 (74)专利代理机构重庆辉腾律师事务所 5 0215 专利代理师王海军 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于人工智能的文本匹配方法 (57)摘要本发明属于自然语言处理技术领域，具体涉及一种基于人工智能的文本匹配方法，包括：获取问题匹配的文本，其中包含用户的输入问题和标准问题，对数据集S进行预处理；构建BERT_MF 模型包括BERT模型层、知识增强层、精确匹配层、相似度匹配层； BERT_M F模型利用拼音、词性以及句法知识，使用精确匹配层提取局部细粒度表征和全局细粒度表征；采用横向拼接的方式对多粒度特征进行融合，经过Softmax函数进行文本匹配。本发明不仅使用了预训练模型ERNIE ‑Gram进行了微调，能够得到文本匹配程度，同时充分使用预训练模型的语义表征和词语表征，可以对文本的局部信息和全局信息进行辨识，进而细粒度的区分文本语义上的匹配。权利要求书3页说明书6页附图2页 CN 115422362 A 2022.12.02 CN 115422362 A 1.一种基于人工智能的文本匹配方法，其特征在于，包括以下步骤： S1：获取问题匹配的文本，包括用户的输入问题和标准问题，对获取的文本进行预处理，得到文本数据集； S2：建立BERT_MF模型，所述BERT_MF模型包括： BERT模型层、知识增强层、精确匹配层、相似度匹配层； S3： BERT模型层将文本数据集中的用户的输入问题和标准问题组成句子对，将组成的句子对作为BERT模型的输入序列进行语言表征提取，得到语义表征hcls和词语表征hlast； S4：知识增强层提取文本的拼音、词性、句法特征，并将拼音、词性、句法特征融入词语表征hlast，得到知识增强后的词语特征hpower； S5：通过精确匹配层对知识增强后的词语特征hpower进行交互，得到全局的细粒度特征 hrnn、局部的细粒度特征hcnn； S6：将语义表征hcls、全局的细粒度特征hrnn、局部的细粒度特征hcnn输入相似度匹配层，采用横向拼接的方式对多粒度特征进行融合，并经过Softmax函数进行文本匹配，得到用户的输入问题与标准问题之间的匹配程度，实现文本匹配分类。 2.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，对获取的文本进行预处理，具体包括：对于文本中的外文字符，根据五十音图等外文字母表剔除外文字符；对于文本中不规范的阿拉伯数字，通过构建数字词典，将文本中的阿拉伯数字规范化为标准形式；对于文本中的繁体字，通过简体繁体字转换表，将文本中的繁体字转为简体字；对于文本中未在 BERT模型词表中出现的字，用[UNK]符号替换该字；对于文本中的颜文字，构建颜文字库,过滤掉文本中的颜文字。 3.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，所述S4，具体包括： S41：通过文本的拼音构建Epin维的拼音embedding，拼音embedding经过宽度为4的卷积层后随机挑选三个向量，挑选相似的向量进行替换，得到将Epin维的拼音特征hpin； S42：根据中文文本的词性初始化Epos维的一个词性权重Wx*Epos，基于词性权重Wx*Epos将文本的每个词的词性转为向量形式，得到 Epos维的词性特征hpos； S43：将用户的输入问题和标准问题的依存关系转换为Esyntax维的邻接矩阵Ml1*l2，将词语表征hlast和邻接矩阵Ml1*l2输入6层的图注意力网络GAT中，得到Esyntax维的句法结构特征 hsyntax； S44：将Epin维的拼音特征hpin、 Epos维的词性特征hpos、 Esyntax维的句法结构特征hsyntax与 hlast进行拼接，得到知识增强后的词语特征hpower。 4.根据权利要求3所述的一种基于人工智能的文本匹配方法，其特征在于，挑选相似的向量，表示为：其中， j表示挑选出的相似向量，表示选择score分数最大的j列值，权　利　要　求　书 1/3 页 2 CN 115422362 A 2WT表示可训练向量， Hj是拼音embedding的第j列向量， hi表示被选中的需要替换的向量,[； ]表示对向量按列拼接，表示元素按位相乘， scoreij表示hi与Hj向量的相似度得分， Epin表示拼音embed ding的维度。 5.根据权利要求3所述的一种基于人工智能的文本匹配方法，其特征在于，拼音特征、词性特征、句法结构特征的具体维度，计算公式如下：其中， Ename表示维度， entrname表示特征信息熵 k表示特征个数， pname表示特征信息量权重， Ebert表示bert模型隐藏层维度， xname表示数据集中name 特征构成字典的大小,xname′表示对xname进行归一化操作。 6.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，所述S5具体包括：精确匹配层包括循环神经网络层和分组卷积网络层，将知识增强后的词语特征hpower 输入循环神经网络层中，交互时序信息，然后对此特征做最大池化和平均池化操作，以获得获取输入问题与标准问题之间全局的细粒度特征hrnn；将知识增强后的词语特征hpower输入分组卷积网络层中，以卷积核Q尺度学习不同级别片段信息来强化对文本局部信息的辨识，最后获得输入问题与标准问题之间局部的细粒度特征hcnn。 7.根据权利要求6所述的一种基于人工智能的文本匹配方法，其特征在于，循环神经网络的某时刻的时序信息，计算公式如下： yt＝sigmoid(Wy*ht+by) 其中， yt表示循环神经网络的t时刻的时序信息， sigmoid()表示sigmoid激活函数， Wy表示第一可训练权重， by表示第一偏差参数， ht表示当前隐藏状态， ht＝(1‑zt)⊙ht+zt⊙h′， h′ 表示当前时刻的候选状态， h ′＝tanh(Wh′*[rt⊙ht‑1； xt]+bh′)， tanh()表示tanh激活函数， Wh′表示第二可训练权重， ht‑1表示上一时刻的隐藏状态， xt表示当前输入， bh′表示第二偏差参数， rt表示重置门状态， rt＝sigmoid(wr*[ct‑1⊙ht‑1； xt]+br)， Wr表示的第三可训练权重， br表示第三偏差参数，表示记忆状态， ct＝(1‑zt)⊙ht， zt表示更新门状态， zt＝ sigmoid(Wz*[ht‑1； xt]+bz)， Wz表示第四可训练权重， bz表示第四偏差参数， *表示矩阵相乘， ⊙表示按位点乘， [； ]表示向量拼接。 8.根据权利要求6所述的一种基于人工智能的文本匹配方法，其特征在于，卷积核Q尺度的计算公式如下： Q＝(c hannel2， channel1//group， k， k)， k ＝{2， 3， 4} 其中， c annel2表示输出时的维度， c annel1表示输入时的维度， group表示分组的大小， k表示卷积核大小， μ表示卷积核的均值， σ 表示卷积核的标准差， //表示当有小数产生时仅保留整数部分。 9.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，在相似度匹配层中，采用横向拼接的方式对多粒度特征进行融合，并经过Softmax函数进行文本匹配，权　利　要　求　书 2/3 页 3 CN 115422362 A 3

专利 一种基于人工智能的文本匹配方法

专利一种基于人工智能的文本匹配方法