(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211226353.4
(22)申请日 2022.10.09
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 王进 陈怡雯 朴昌浩 刘彬
杜雨露 邓欣 孙开伟
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
专利代理师 王海军
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于人工智能的文本匹配方法
(57)摘要
本发明属于自然语 言处理技术领域, 具体涉
及一种基于人工智 能的文本匹配方法, 包括: 获
取问题匹配的文本, 其中包含用户的输入问题和
标准问题, 对数据集S进行预处理; 构建BERT_MF
模型包括BERT模型层、 知 识增强层、 精确匹配层、
相似度匹配层; BERT_M F模型利用拼音、 词性以及
句法知识, 使用精确匹配层提取局部细粒度表征
和全局细粒度表征; 采用横向拼接的方式对多粒
度特征进行融合, 经过Softmax函数进行文本匹
配。 本发明不仅使用了 预训练模型ERNIE ‑Gram进
行了微调, 能够得到文本匹配程度, 同时充分使
用预训练模 型的语义表征和词语表征, 可以对文
本的局部信息和全局信息进行辨识, 进而细粒度
的区分文本 语义上的匹配 。
权利要求书3页 说明书6页 附图2页
CN 115422362 A
2022.12.02
CN 115422362 A
1.一种基于人工智能的文本匹配方法, 其特 征在于, 包括以下步骤:
S1: 获取问题匹配的文本, 包括用户的输入问题和标准问题, 对获取的文本进行预处
理, 得到文本数据集;
S2: 建立BERT_MF模型, 所述BERT_MF模型包括: BERT模型层、 知识增强层、 精确匹配层、
相似度匹配层;
S3: BERT模型层将文本数据集中的用户的输入问题和标准问题组成句子对, 将组成的
句子对作为BERT模型的输入序列进行语言表征提取, 得到语义表征hcls和词语表征hlast;
S4: 知识增强层提取文本的拼音、 词性、 句 法特征, 并将拼音、 词性、 句 法特征融入词语
表征hlast, 得到知识增强后的词语特 征hpower;
S5: 通过精确匹配层对知识增强后的词语特征hpower进行交互, 得到全局的细粒度特征
hrnn、 局部的细粒度特 征hcnn;
S6: 将语义表征hcls、 全局的细粒度特征hrnn、 局部的细粒度特征hcnn输入相似度匹配层,
采用横向拼接的方式对多粒度特征进 行融合, 并经过Softmax函数进行文本匹配, 得到用户
的输入问题与标准问题之间的匹配程度, 实现文本匹配分类。
2.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 对获取的文
本进行预处理, 具体包括:
对于文本中的外文字符, 根据五十音图等外文字母表剔除外文字符;
对于文本中不规范的阿拉伯数字, 通过构建数字词典, 将文本中的阿拉伯数字规范化
为标准形式;
对于文本中的繁体字, 通过简体繁体字转换表, 将文本中的繁体字转 为简体字;
对于文本中未在 BERT模型词表中出现的字, 用[UNK]符号 替换该字;
对于文本中的颜文字, 构建颜文字库,过 滤掉文本中的颜文字 。
3.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 所述S4, 具
体包括:
S41: 通过文本的拼音构建Epin维的拼音embedding, 拼音embedding经过宽度为4的卷积
层后随机挑选三个向量, 挑选相似的向量进行替换, 得到将Epin维的拼音特 征hpin;
S42: 根据中文文本的词性初始化Epos维的一个词性权重Wx*Epos, 基于词性权重Wx*Epos将
文本的每 个词的词性 转为向量形式, 得到 Epos维的词性特 征hpos;
S43: 将用户的输入问题和标准 问题的依存关系转换为Esyntax维的邻接矩阵Ml1*l2, 将词
语表征hlast和邻接矩阵Ml1*l2输入6层的图注意力网络GAT中, 得到Esyntax维的句法结构特征
hsyntax;
S44: 将Epin维的拼音特征hpin、 Epos维的词性特征hpos、 Esyntax维的句法结构特征hsyntax与
hlast进行拼接, 得到知识增强后的词语特 征hpower。
4.根据权利要求3所述的一种基于人工智能的文本匹配方法, 其特征在于, 挑选相似的
向量, 表示 为:
其中, j表示挑选出的相似向量,
表示选择score分数最大的j列值,权 利 要 求 书 1/3 页
2
CN 115422362 A
2WT表示可训练向量, Hj是拼音embedding的第j列向量,
hi表示被选中的需要替换的向量,[; ]表示对向量按列拼接,
表示元素按位相乘, scoreij表
示hi与Hj向量的相似度得分, Epin表示拼音embed ding的维度。
5.根据权利要求3所述的一种基于人工智能的文本匹配方法, 其特征在于, 拼音特征、
词性特征、 句法结构特 征的具体维度, 计算公式如下:
其中, Ename表示维度, entrname表示特征信息熵
k表
示特征个数, pname表示特征信息量权重,
Ebert表示bert模型隐藏层维
度, xname表示数据集中name 特征构成字典的大小,xname′表示对xname进行归一 化操作。
6.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 所述S5具体
包括: 精确匹配层包括循环神经网络层和分组卷积网络层, 将知识增强后的词语特征hpower
输入循环神经网络层中, 交互 时序信息, 然后对此特征做最大池化和平均池化操作, 以获得
获取输入问题与标准问题之间全局的细粒度特征hrnn; 将知识增强后的词语特征hpower输入
分组卷积网络层中, 以卷积核Q尺度学习不同级别片段信息来强化对文本局部信息的辨识,
最后获得输入问题与标准问题之间局部的细粒度特 征hcnn。
7.根据权利要求6所述的一种基于人工智能的文本匹配方法, 其特征在于, 循环神经网
络的某时刻的时序信息, 计算公式如下:
yt=sigmoid(Wy*ht+by)
其中, yt表示循环神经网络的t时刻的时序信息, sigmoid()表示sigmoid激活函 数, Wy表
示第一可训练权重, by表示第一偏差参数, ht表示当前隐藏状态, ht=(1‑zt)⊙ht+zt⊙h′, h′
表示当前时刻的候选状态, h ′=tanh(Wh′*[rt⊙ht‑1; xt]+bh′), tanh()表示tanh激活函数,
Wh′表示第二可训练权重, ht‑1表示上一时刻的隐藏状态, xt表示当前输入, bh′表示第二偏差
参数, rt表示重置门状态, rt=sigmoid(wr*[ct‑1⊙ht‑1; xt]+br), Wr表示的第 三可训练权重,
br表示第三偏差参数,
表示记忆状态, ct=(1‑zt)⊙ht, zt表示更新门状态, zt=
sigmoid(Wz*[ht‑1; xt]+bz), Wz表示第四可训练权重, bz表示第四偏差参数, *表示矩阵相乘,
⊙表示按位 点乘, [; ]表示向量 拼接。
8.根据权利要求6所述的一种基于人工智能的文本匹配方法, 其特征在于, 卷积核Q尺
度的计算公式如下:
Q=(c hannel2, channel1//group, k, k), k ={2, 3, 4}
其中, c annel2表示输出时的维度, c annel1表示输入时的维度, group表示分组的大
小,
k表示卷积核大小, μ表示卷积核的均值, σ 表示卷积核的标准差, //表示
当有小数产生时仅保留整数部分。
9.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 在相似度匹
配层中, 采用横向拼接的方式对多粒度特征进行融合, 并经过Softmax函数进行文本匹配,权 利 要 求 书 2/3 页
3
CN 115422362 A
3
专利 一种基于人工智能的文本匹配方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:40上传分享