iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211226353.4 (22)申请日 2022.10.09 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区南 山街道崇文 路2号 (72)发明人 王进 陈怡雯 朴昌浩 刘彬  杜雨露 邓欣 孙开伟  (74)专利代理 机构 重庆辉腾律师事务所 5 0215 专利代理师 王海军 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于人工智能的文本匹配方法 (57)摘要 本发明属于自然语 言处理技术领域, 具体涉 及一种基于人工智 能的文本匹配方法, 包括: 获 取问题匹配的文本, 其中包含用户的输入问题和 标准问题, 对数据集S进行预处理; 构建BERT_MF 模型包括BERT模型层、 知 识增强层、 精确匹配层、 相似度匹配层; BERT_M F模型利用拼音、 词性以及 句法知识, 使用精确匹配层提取局部细粒度表征 和全局细粒度表征; 采用横向拼接的方式对多粒 度特征进行融合, 经过Softmax函数进行文本匹 配。 本发明不仅使用了 预训练模型ERNIE ‑Gram进 行了微调, 能够得到文本匹配程度, 同时充分使 用预训练模 型的语义表征和词语表征, 可以对文 本的局部信息和全局信息进行辨识, 进而细粒度 的区分文本 语义上的匹配 。 权利要求书3页 说明书6页 附图2页 CN 115422362 A 2022.12.02 CN 115422362 A 1.一种基于人工智能的文本匹配方法, 其特 征在于, 包括以下步骤: S1: 获取问题匹配的文本, 包括用户的输入问题和标准问题, 对获取的文本进行预处 理, 得到文本数据集; S2: 建立BERT_MF模型, 所述BERT_MF模型包括: BERT模型层、 知识增强层、 精确匹配层、 相似度匹配层; S3: BERT模型层将文本数据集中的用户的输入问题和标准问题组成句子对, 将组成的 句子对作为BERT模型的输入序列进行语言表征提取, 得到语义表征hcls和词语表征hlast; S4: 知识增强层提取文本的拼音、 词性、 句 法特征, 并将拼音、 词性、 句 法特征融入词语 表征hlast, 得到知识增强后的词语特 征hpower; S5: 通过精确匹配层对知识增强后的词语特征hpower进行交互, 得到全局的细粒度特征 hrnn、 局部的细粒度特 征hcnn; S6: 将语义表征hcls、 全局的细粒度特征hrnn、 局部的细粒度特征hcnn输入相似度匹配层, 采用横向拼接的方式对多粒度特征进 行融合, 并经过Softmax函数进行文本匹配, 得到用户 的输入问题与标准问题之间的匹配程度, 实现文本匹配分类。 2.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 对获取的文 本进行预处理, 具体包括: 对于文本中的外文字符, 根据五十音图等外文字母表剔除外文字符; 对于文本中不规范的阿拉伯数字, 通过构建数字词典, 将文本中的阿拉伯数字规范化 为标准形式; 对于文本中的繁体字, 通过简体繁体字转换表, 将文本中的繁体字转 为简体字; 对于文本中未在 BERT模型词表中出现的字, 用[UNK]符号 替换该字; 对于文本中的颜文字, 构建颜文字库,过 滤掉文本中的颜文字 。 3.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 所述S4, 具 体包括: S41: 通过文本的拼音构建Epin维的拼音embedding, 拼音embedding经过宽度为4的卷积 层后随机挑选三个向量, 挑选相似的向量进行替换, 得到将Epin维的拼音特 征hpin; S42: 根据中文文本的词性初始化Epos维的一个词性权重Wx*Epos, 基于词性权重Wx*Epos将 文本的每 个词的词性 转为向量形式, 得到 Epos维的词性特 征hpos; S43: 将用户的输入问题和标准 问题的依存关系转换为Esyntax维的邻接矩阵Ml1*l2, 将词 语表征hlast和邻接矩阵Ml1*l2输入6层的图注意力网络GAT中, 得到Esyntax维的句法结构特征 hsyntax; S44: 将Epin维的拼音特征hpin、 Epos维的词性特征hpos、 Esyntax维的句法结构特征hsyntax与 hlast进行拼接, 得到知识增强后的词语特 征hpower。 4.根据权利要求3所述的一种基于人工智能的文本匹配方法, 其特征在于, 挑选相似的 向量, 表示 为: 其中, j表示挑选出的相似向量, 表示选择score分数最大的j列值,权 利 要 求 书 1/3 页 2 CN 115422362 A 2WT表示可训练向量, Hj是拼音embedding的第j列向量, hi表示被选中的需要替换的向量,[; ]表示对向量按列拼接, 表示元素按位相乘, scoreij表 示hi与Hj向量的相似度得分, Epin表示拼音embed ding的维度。 5.根据权利要求3所述的一种基于人工智能的文本匹配方法, 其特征在于, 拼音特征、 词性特征、 句法结构特 征的具体维度, 计算公式如下: 其中, Ename表示维度, entrname表示特征信息熵 k表 示特征个数, pname表示特征信息量权重, Ebert表示bert模型隐藏层维 度, xname表示数据集中name 特征构成字典的大小,xname′表示对xname进行归一 化操作。 6.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 所述S5具体 包括: 精确匹配层包括循环神经网络层和分组卷积网络层, 将知识增强后的词语特征hpower 输入循环神经网络层中, 交互 时序信息, 然后对此特征做最大池化和平均池化操作, 以获得 获取输入问题与标准问题之间全局的细粒度特征hrnn; 将知识增强后的词语特征hpower输入 分组卷积网络层中, 以卷积核Q尺度学习不同级别片段信息来强化对文本局部信息的辨识, 最后获得输入问题与标准问题之间局部的细粒度特 征hcnn。 7.根据权利要求6所述的一种基于人工智能的文本匹配方法, 其特征在于, 循环神经网 络的某时刻的时序信息, 计算公式如下: yt=sigmoid(Wy*ht+by) 其中, yt表示循环神经网络的t时刻的时序信息, sigmoid()表示sigmoid激活函 数, Wy表 示第一可训练权重, by表示第一偏差参数, ht表示当前隐藏状态, ht=(1‑zt)⊙ht+zt⊙h′, h′ 表示当前时刻的候选状态, h ′=tanh(Wh′*[rt⊙ht‑1; xt]+bh′), tanh()表示tanh激活函数, Wh′表示第二可训练权重, ht‑1表示上一时刻的隐藏状态, xt表示当前输入, bh′表示第二偏差 参数, rt表示重置门状态, rt=sigmoid(wr*[ct‑1⊙ht‑1; xt]+br), Wr表示的第 三可训练权重, br表示第三偏差参数, 表示记忆状态, ct=(1‑zt)⊙ht, zt表示更新门状态, zt= sigmoid(Wz*[ht‑1; xt]+bz), Wz表示第四可训练权重, bz表示第四偏差参数, *表示矩阵相乘, ⊙表示按位 点乘, [; ]表示向量 拼接。 8.根据权利要求6所述的一种基于人工智能的文本匹配方法, 其特征在于, 卷积核Q尺 度的计算公式如下: Q=(c hannel2, channel1//group, k, k), k ={2, 3, 4} 其中, c annel2表示输出时的维度, c  annel1表示输入时的维度, group表示分组的大 小, k表示卷积核大小, μ表示卷积核的均值, σ 表示卷积核的标准差, //表示 当有小数产生时仅保留整数部分。 9.根据权利要求1所述的一种基于人工智能的文本匹配方法, 其特征在于, 在相似度匹 配层中, 采用横向拼接的方式对多粒度特征进行融合, 并经过Softmax函数进行文本匹配,权 利 要 求 书 2/3 页 3 CN 115422362 A 3

PDF文档 专利 一种基于人工智能的文本匹配方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于人工智能的文本匹配方法 第 1 页 专利 一种基于人工智能的文本匹配方法 第 2 页 专利 一种基于人工智能的文本匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。