专利 文本意图分类方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210897512.7 (22)申请日 2022.07.28 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人于凤英　王健宗　 (74)专利代理机构深圳众鼎专利商标代理事务所(普通合伙) 44325 专利代理师张美君 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本意图分类方法、装置、计算机设备及存储介质 (57)摘要本发明公开了一种文本意图分类方法，该方法包括：获取当前语句文本，并对当前语句文本进行文本补全，得到目标语句文本；通过片段识别模型对目标语句文本进行片段识别，得到第一片段识别结果、第二片段识别结果和第三片段识别结果；对第一片段识别结果、第二片段识别结果和第三片段识别结果进行聚类，得到第一文本意图簇、第二文本意图簇和第三文本意图簇；根据预设通用意图簇和预设场景意图簇，对第一文本意图簇、第二文本意图簇和第三文本意图簇进行匹配，得到意图分类结果。本发明对当前语句文本连补全，实现了对目标语句文本的获取。通过通用意图簇和场景意图簇对文本意图簇进行匹配，从而实现了对用户意图的分类。权利要求书2页说明书13页附图3页 CN 115203372 A 2022.10.18 CN 115203372 A 1.一种文本意图分类方法，其特征在于，包括：获取当前语句文本，并对所述当前语句文本进行文本补全，得到目标语句文本；将所述目标语句文本输入至片段识别模型，通过所述片段识别模型对所述目标语句文本进行片段识别，得到第一片段识别结果、第二片段识别结果和第三片段识别结果；分别对所述第一片段识别结果、所述第二片段识别结果和所述第三片段识别结果进行聚类，得到第一片段识别结果对应的第一文本意图簇、第二片段识别结果对应的第二文本意图簇和第三片段识别结果对应的第三文本意图簇；获取预设通用意图簇和预设场景意图簇，根据所述预设通用意图簇和所述预设场景意图簇，对所述第一文本意图簇、所述第二文本意图簇和所述第三文本意图簇进行匹配，得到当前语句文本对应的意图分类结果。 2.如权利要求1所述的文本意图分类方法，其特征在于，所述对所述当前语句文本进行文本补全，得到目标语句文本，包括：获取历史语句文本和所述历史语句文本对应的历史回复文本；所述历史语句文本是指所述当前语句文本上一轮的文本；所述历史语句文本和所述历史回复文本对应一个历史文本标签；对所述历史语句文本、所述历史回复文本和所述当前语句文本进行文本拼接，得到初始文本；获取所述当前语句文本对应的当前文本标签，并对所述历史文本标签和所述当前文本标签进行拼接，得到初始标签；将所述初始文本和所述初始标签输入至预设文本查询模型，获取所述预设文本查询模型输出的初始文本对应的指代实体位置，以及当前语句文本对应的待补全位置；从所述初始文本中提取所述指代实体位置对应的指代实体文本，并根据所述指代实体文本和所述待补全位置对所述当前语句文本进行文本补全，得到目标语句文本。 3.如权利要求1所述的文本意图分类方法，其特征在于，所述通过所述片段识别模型对所述目标语句文本进行片段识别，得到第一片段识别结果、第二片段识别结果和第三片段识别结果，包括：通过所述片段识别模型中的编码模块对所述目标语句文本进行编码处理，得到目标词向量；通过所述片段识别模型中的变换模块对所述目标词向量进行变换处理，得到目标句向量；获取目标位置向量，根据所述目标句向量和所述目标位置向量对所述目标语句文本进行片段识别，得到第一片段识别结果、第二片段识别结果和第三片段识别结果。 4.如权利要求1所述的文本意图分类方法，其特征在于，所述对第一片段识别结果、第二片段识别结果和第三片段识别结果进行聚类，包括：将所述第一片段识别结果、所述第二片段识别结果和所述第三片段识别结果输入至预设编码模型，通过所述预设编码模型分别对与各片段识别结果相对应的目标语句文本进行编码，得到第一片段识别结果对应的第一文本语义向量、第二片段识别结果对应的第二文本语义向量和第三片段识别结果对应的第三文本语义向量；基于聚类算法分别对所述文本语义向量进行聚类，得到第一片段识别结果对应的第一权　利　要　求　书 1/2 页 2 CN 115203372 A 2文本意图簇、第二片段识别结果对应的第二文本意图簇和第三片段识别结果对应的第三文本意图簇。 5.如权利要求1所述的文本意图分类方法，其特征在于，所述对第一文本意图簇、第二文本意图簇和第三文本意图簇进行匹配，得到当前语句文本对应的意图分类结果，包括：对所述预设通用意图簇和各文本意图簇进行向量提取，得到预设通用意图簇对应的通用语义向量和各文本意图簇对应的文本语义向量；将所述通用语义向量和所有所述文本语义向量进行匹配，得到通用分类结果。 6.如权利要求5所述的文本意图分类方法，其特征在于，所述对第一文本意图簇、第二文本意图簇和第三文本意图簇进行匹配，得到当前语句文本对应的意图分类结果，还包括：将表征匹配失败的意图分类结果对应的文本意图簇记录为匹配意图簇；对所述预设场景意图簇和各匹配意图簇进行向量提取，得到预设场景意图簇对应的场景语义向量和各匹配意图簇对应的匹配语义向量；将所述场景语义向量和所述匹配语义向量进行匹配，得到意图分类结果。 7.如权利要求1所述的文本意图分类方法，其特征在于，所述获取当前语句文本之前，包括：获取初始语句文本，对所述初始语句文本进行切词处理，得到所述初始语句文本中的至少一个待处理字词；对所述待处理字词进行实体识别，得到与所述待处理字词相对应的实体识别结果；根据与各待处理字词相对应的实体识别结果，对所述初始语句文本进行过滤，得到当前语句文本。 8.一种文本意图分类装置，其特征在于，包括：获取模块，用于获取当前语句文本，并对所述当前语句文本进行文本补全，得到目标语句文本；识别模块，用于将所述目标语句文本输入至片段识别模型，通过所述片段识别模型对所述目标语句文本进行片段识别，得到第一片段识别结果、第二片段识别结果和第三片段识别结果；聚类模块，用于分别对所述第一片段识别结果、所述第二片段识别结果和所述第三片段识别结果进行聚类，得到第一片段识别结果对应的第一文本意图簇、第二片段识别结果对应的第二文本意图簇和第三片段识别结果对应的第三文本意图簇；结果模块，用于获取预设通用意图簇和预设场景意图簇，根据所述预设通用意图簇和所述预设场景意图簇，对所述第一文本意图簇、所述第二文本意图簇和所述第三文本意图簇进行匹配，得到当前语句文本对应的意图分类结果。 9.一种计算机设备，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7 任一项所述文本意图分类方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本意图分类方法。权　利　要　求　书 2/2 页 3 CN 115203372 A 3

专利 文本意图分类方法、装置、计算机设备及存储介质

专利文本意图分类方法、装置、计算机设备及存储介质