(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210897512.7
(22)申请日 2022.07.28
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 于凤英 王健宗
(74)专利代理 机构 深圳众鼎专利商标代理事务
所(普通合伙) 44325
专利代理师 张美君
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本意图分类方法、 装置、 计算机设备及存
储介质
(57)摘要
本发明公开了一种文本意图分类方法, 该方
法包括: 获取当前语句文本, 并对当前语句文本
进行文本补全, 得到目标语句文本; 通过片段识
别模型对目标语句文本进行片段识别, 得到第一
片段识别结果、 第二片段识别结果和第三片段识
别结果; 对第一片段识别结果、 第二片段识别结
果和第三片段识别结果进行聚类, 得到第一文本
意图簇、 第二文本意图簇和第三文本意图簇; 根
据预设通用意图簇和预设场景意图簇, 对第一文
本意图簇、 第二文本意图簇和第三文本意图簇进
行匹配, 得到意图分类结果。 本发明对当前语句
文本连补全, 实现了对目标语句文本的获取。 通
过通用意图簇和场景意图簇对文本意图簇进行
匹配, 从而实现了对用户意图的分类 。
权利要求书2页 说明书13页 附图3页
CN 115203372 A
2022.10.18
CN 115203372 A
1.一种文本意图分类方法, 其特 征在于, 包括:
获取当前语句文本, 并对所述当前语句文本进行文本补全, 得到目标语句文本;
将所述目标语句文本输入至片段识别模型, 通过所述片段识别模型对所述目标语句文
本进行片段识别, 得到第一片段识别结果、 第二片段识别结果和第三片段识别结果;
分别对所述第 一片段识别结果、 所述第 二片段识别结果和所述第 三片段识别结果进行
聚类, 得到第一片段识别结果对应的第一文本意图簇、 第二片段识别结果对应的第二文本
意图簇和第三片段识别结果对应的第三文本意图簇;
获取预设通用意图簇和预设场景意图簇, 根据所述预设通用意图簇和所述预设场景意
图簇, 对所述第一文本意图簇、 所述第二文本意图簇和所述第三文本意图簇进 行匹配, 得到
当前语句文本对应的意图分类结果。
2.如权利要求1所述的文本意图分类方法, 其特征在于, 所述对所述当前语句文本进行
文本补全, 得到目标语句文本, 包括:
获取历史语句文本和所述历史语句文本对应的历史回复文本; 所述历史语句文本是指
所述当前语句文本上一轮的文本; 所述历史语句文本和所述历史回复文本对应一个历史文
本标签;
对所述历史语句文本、 所述历史回复文本和所述当前语句文本进行文本拼接, 得到初
始文本;
获取所述当前语句文本对应的当前文本标签, 并对所述历史文本标签和所述当前文本
标签进行拼接, 得到初始标签;
将所述初始文本和所述初始标签输入至预设文本查询模型, 获取所述预设文本查询模
型输出的初始文本对应的指代实体位置, 以及当前语句文本对应的待补全位置;
从所述初始文本 中提取所述指代实体位置对应的指代实体文本, 并根据 所述指代实体
文本和所述待补全位置对所述当前语句文本进行文本补全, 得到目标语句文本 。
3.如权利要求1所述的文本意图分类方法, 其特征在于, 所述通过所述片段识别模型对
所述目标语句文本进行片段识别, 得到第一片段识别结果、 第二片段识别结果和第三片段
识别结果, 包括:
通过所述片段识别模型中的编码模块对所述目标语句文本进行编码处理, 得到目标词
向量;
通过所述片段识别模型中的变换模块对所述目标词向量进行变换处理, 得到目标句向
量;
获取目标位置向量, 根据所述目标句向量和所述目标位置向量对所述目标语句文本进
行片段识别, 得到第一片段识别结果、 第二片段识别结果和第三片段识别结果。
4.如权利要求1所述的文本意图分类方法, 其特征在于, 所述对第一片段识别结果、 第
二片段识别结果和第三片段识别结果进行聚类, 包括:
将所述第一片段识别结果、 所述第 二片段识别结果和所述第 三片段识别结果输入至预
设编码模型, 通过所述预设编 码模型分别对与各片段识别结果相对应的目标语句文本进 行
编码, 得到第一片段识别结果对应的第一文本语义向量、 第二片段识别结果对应的第二文
本语义向量和第三片段识别结果对应的第三文本语义向量;
基于聚类算法分别对所述文本语义向量进行聚类, 得到第 一片段识别结果对应的第 一权 利 要 求 书 1/2 页
2
CN 115203372 A
2文本意图簇、 第二片段识别结果对应的第二文本意图簇和 第三片段识别结果对应的第三文
本意图簇 。
5.如权利要求1所述的文本意图分类方法, 其特征在于, 所述对第一文本意图簇、 第二
文本意图簇和第三文本意图簇进行匹配, 得到当前语句文本对应的意图分类结果, 包括:
对所述预设通用意图簇和各文本意图簇进行向量提取, 得到预设通用意图簇对应的通
用语义向量和各文本意图簇对应的文本语义向量;
将所述通用语义向量和所有所述文本语义向量进行匹配, 得到通用分类结果。
6.如权利要求5所述的文本意图分类方法, 其特征在于, 所述对第一文本意图簇、 第二
文本意图簇和第三文本意图簇进行匹配, 得到当前语句文本对应的意图分类结果, 还 包括:
将表征匹配失败的意图分类结果对应的文本意图簇记录为匹配意图簇; 对所述预设场
景意图簇和各匹配意图簇进行向量提取, 得到预设场景意图簇对应的场景语义向量和各匹
配意图簇对应的匹配 语义向量;
将所述场景语义向量和所述匹配 语义向量进行匹配, 得到意图分类结果。
7.如权利要求1所述的文本意图分类方法, 其特征在于, 所述获取当前语句文本之前,
包括:
获取初始语句文本, 对所述初始语句文本进行切词处理, 得到所述初始语句文本中的
至少一个待处 理字词;
对所述待处 理字词进行实体识别, 得到与所述待处 理字词相对应的实体识别结果;
根据与各待处理字词相对应的实体识别结果, 对所述初始语句文本进行过滤, 得到当
前语句文本 。
8.一种文本意图分类装置, 其特 征在于, 包括:
获取模块, 用于获取当前语句文本, 并对所述当前语句文本进行文本补全, 得到目标语
句文本;
识别模块, 用于将所述目标语句文本输入至片段识别模型, 通过所述片段识别模型对
所述目标语句文本进行片段识别, 得到第一片段识别结果、 第二片段识别结果和第三片段
识别结果;
聚类模块, 用于分别对所述第一片段识别结果、 所述第二片段识别结果和所述第三片
段识别结果进行聚类, 得到第一片段识别结果对应的第一文本意图簇、 第二片段识别结果
对应的第二文本意图簇和第三片段识别结果对应的第三文本意图簇;
结果模块, 用于获取预设通用意图簇和预设场景意图簇, 根据所述预设通用意图簇和
所述预设场景意图簇, 对所述第一文本意图簇、 所述第二文本意图簇和所述第三文本意图
簇进行匹配, 得到当前语句文本对应的意图分类结果。
9.一种计算机设备, 包括存储器、 处理器及存储在所述存储器中并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7
任一项所述文本意图分类方法。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述文本意图分类方法。权 利 要 求 书 2/2 页
3
CN 115203372 A
3
专利 文本意图分类方法、装置、计算机设备及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:26上传分享