专利 语义识别方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211065489.1 (22)申请日 2022.09.01 (71)申请人深圳市人马互动科技有限公司地址 518000 广东省深圳市粤海街道高新区社区高新南环路46号留学生创业大厦二期20层 (72)发明人杨强　 (74)专利代理机构深圳市华盛智荟知识产权代理事务所(普通合伙) 44604 专利代理师胡国英 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称语义识别方法、装置、设备及存储介质 (57)摘要本申请公开了一种语义识别方法、装置、设备及存储介质，该方法包括：获取待识别文本，确定待识别文本的意图信息；基于待识别文本的意图信息，采用预设的文本相似度算法确定目标场景语句样本；基于目标场景语句样本和训练好的语义识别模型进行识别处理，得到待识别文本的预测结果，目标场景语句样本语义识别模型包括多个场景识别模型。该技术方案由于采用预设的文本相似度算法，能够准确地确定出目标场景语句样本，从而为后续语义识别提供了全面且准确的指导信息，并根据每个场景识别模型对目标场景语句样本进行识别处理，进而更细粒度地确定出待识别文本的预测结果，使得能够对待识别文本的语义识别的准确度更高。权利要求书2页说明书11页附图4页 CN 115422944 A 2022.12.02 CN 115422944 A 1.一种语义识别方法，其特征在于，包括：获取待识别文本，确定所述待识别文本的意图信息；基于所述待识别文本的意图信息，采用预设的文本相似度算法确定目标场景语句样本；基于所述目标场景语句样本和训练好的语义识别模型进行识别处理，得到所述待识别文本的预测结果，所述语义识别模型包括多个场景识别模型，所述多个场景识别模型中每个场景识别模型是基于历史场景语句样本和对应的历史场景识别结果训练得到的。 2.根据权利要求1所述的方法，其特征在于，基于所述待识别文本的意图信息，采用预设的文本相似度算法确定目标场景语句样本，包括：基于所述待识别文本的意图信息，确定所述意图信息的归属位置；当所述归属位置在所述历史场景语句样本中时，获取训练所述每个场景识别模型时对应的历史场景语句样本；采用预设的文本相似度算法，确定待识别文本的意图信息与所述历史场景语句样本的文本相似度；确定文本相似度符合预设规则的历史场景语句样本作为目标场景语句样本。 3.根据权利要求2所述的方法，其特征在于，在基于所述待识别文本的意图信息，确定所述意图信息的归属位置之后，所述方法还包括：当所述归属位置不在所述历史场景语句样本中时，将所述待识别文本的意图信息作为目标场景语句样本。 4.根据权利要求1所述的方法，其特征在于，基于所述目标场景语句样本和训练好的语义识别模型进行识别处理，得到所述待识别文本的预测结果，包括：将所述目标场景语句样本输入所述训练好的语义识别模型中的场景识别模型进行识别处理，得到输出结果；将所述输出结果作为所述待识别文本的预测结果。 5.根据权利要求1所述的方法，其特征在于，将所述目标场景语句样本输入所述训练好的语义识别模型中的场景识别模型进行识别处理，得到输出结果，包括：将所述目标场景语句样本输入场景识别模型，通过向量化处理模块得到所述目标场景语句样本的特征向量；将所述特征向量通过特征提取模块进行特征提取，得到所述目标场景语句样本的属性信息，所述属性信息包括所述目标场景语句样本的词性和语言结构；基于所述目标场景语句样本的属性信息，通过识别模块进行处理，得到所述待识别文本的输出结果。 6.根据权利要求1所述的方法，其特征在于，确定所述待识别文本的意图信息，包括：对所述待识别文本进行预处理，得到预处理后的文本；将所述预处理的文本进行意图分析处理，得到所述待识别文本的意图信息。 7.根据权利要求1所述的方法，其特征在于，所述语义识别模型中的每个场景识别模型的训练过程包括：获取历史场景文本数据和与所述历史场景文本数据对应的历史场景识别结果；将所述历史场景文本数据分为训练集和验证集；权　利　要　求　书 1/2 页 2 CN 115422944 A 2利用所述训练集对待构建的场景识别模型进行训练，得到待验证的场景识别模型；利用所述验证集中对所述待验证的场景识别模型，按照损失函数最小化对所述待验证的场景识别模型进行优化处理，得到场景识别模型。 8.一种语义识别装置，其特征在于，所述装置包括：获取模块，用于获取待识别文本，确定所述待识别文本的意图信息；确定模块，用于基于所述待识别文本的意图信息，采用预设的文本相似度算法确定目标场景语句样本；识别模块，用于基于所述目标场景语句样本和训练好的语义识别模型进行识别处理，得到所述待识别文本的预测结果，所述语义识别模型包括多个场景识别模型，所述多个场景识别模型中每个场景识别模型是基于历史场景语句样本和对应的历史场景识别结果训练得到的。 9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在存储器熵并可在处理器上运行的计算机程序，所述处理器用于执行所述程序时实现如权利要求 1‑7任一项所述的语义识别方法。 10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如权利要求1‑7任一项所述的语义识别方法。权　利　要　求　书 2/2 页 3 CN 115422944 A 3

专利 语义识别方法、装置、设备及存储介质

专利语义识别方法、装置、设备及存储介质