iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211190704.0 (22)申请日 2022.09.28 (71)申请人 上海销氪信息科技有限公司 地址 200441 上海市宝山区逸仙路2816号1 幢9层 (72)发明人 陈倩倩 蒋林林 周柳阳  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 杨帆 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种意图识别方法、 装置、 设备及计算机可 读存储介质 (57)摘要 本发明公开了一种意图识别方法、 装置、 设 备及计算机 可读存储介质, 涉及NLP技术领域, 该 方法包括: 利用预训练模型, 获取各标签各自对 应的标签相近词, 构建标签词映射器; 利用预设 正则表达式, 获取各标签各自对应的小样本标注 数据; 根据小样本标注数据, 对标签词映射器进 行频率调整和/或相关性调整, 获取调整标签词 映射器; 利用调整标签词映射器, 对预训练语言 模型预测得到的待识别原始语句对应的预测词 进行匹配, 得到预测词对应的标签; 本发明根据 各标签的标签 关键词, 利用正则提取获取标注的 小样本数据, 解决样本分布不平衡的问题; 利用 预训练模型自动配置标签词映射器中的标签映 射词且通过对 标签词映射器的优化, 提高意图识 别的准确性。 权利要求书2页 说明书9页 附图4页 CN 115526171 A 2022.12.27 CN 115526171 A 1.一种意图识别方法, 其特 征在于, 包括: 利用预训练模型, 获取 各标签各自对应的标签相近词, 构建标签词映射器; 利用预设正则表达 式, 获取各标签各自对应的小样本标注数据; 其中, 所述预设正则表 达式包括各 所述标签各自对应的标签关键词; 根据所述小样本标注数据, 对所述标签词映射器进行频率调整和/或相关性调整, 获取 调整标签词映射器; 利用所述调 整标签词映射器, 对预训练语言模型预测得到的待识别原始语句对应的预 测词进行匹配, 得到所述预测词对应的标签。 2.根据权利要求1所述的意图识别方法, 其特征在于, 所述利用预训练模型, 获取各标 签各自对应的标签相近词, 构建标签词映射器之前, 还 包括: 根据获取的业 务场景信息, 确定目标 标签; 对应的, 所述利用预训练模型, 获取各标签各自对应的标签相近词, 构建标签词 映射 器, 包括: 利用所述预训练模型, 获取各所述目标标签各自对应的标签相近词, 构建所述标签词 映射器。 3.根据权利要求1所述的意图识别方法, 其特征在于, 所述利用预训练模型, 获取各标 签各自对应的标签相近词, 构建标签词映射器, 包括: 利用预训练w obert模型, 获取 各标签各自对应的标签相近词; 根据所述标签相近词, 确定每 个所述标签各自对应的第一预设数量的标签词; 根据各所述标签和各自对应的标签词, 构建所述标签词映射器。 4.根据权利要求3所述的意图识别方法, 其特征在于, 所述根据所述标签相近词, 确定 每个所述标签各自对应的第一预设数量的标签词, 包括: 获取所述标签相近词中的目标相近词; 其中, 所述目标相近词不包括停用词和多个所 述标签对应的标签相近词; 根据各所述标签各自对应的目标相近词位置的词汇分布概率, 确定各所述标签各自对 应的第二预设数量的有效替代位置; 其中, 所述有效替代位置为所述标签对应的目标相 近 词位置中词汇分布概 率按降序排列的前 所述第二预设数量的目标相近位置; 根据各所述标签各自对应的第 二预设数量的有 效替代位置, 确定所述标签各自对应的 第一预设数量的标签词; 其中, 所述标签词为所述标签对应的目标相 近词中按出现在有效 替代位置的次数按降序排列的前 所述第一预设数量的目标相近词。 5.根据权利要求1所述的意图识别方法, 其特征在于, 所述根据所述小样本标注数据, 对所述标签词映射器进行 频率调整和/或相关性调整, 获取调整标签词映射器, 包括: 利用所述预训练模型对所述小样本标注数据进行检测, 获取所述标签词映射器中各所 述标签各自对应的标签词的出现频率; 根据所述出现频率, 对所述标签词映射器进行 频率调整, 获取初步优化标签词映射器; 利用TF‑IDF公式, 确定所述初步优化标签词映射器中每个所述标签各自对应的标签词 的重要性信息; 根据所述重要性信息, 对所述初步优化标签词映射器进行相关性调整, 获取所述调整 标签词映射器。权 利 要 求 书 1/2 页 2 CN 115526171 A 26.根据权利要求1至5任一项所述的意图识别方法, 其特征在于, 所述利用所述调整标 签词映射器, 对预训练语言模型预测得到的待识别原始语句对应的预测词进行匹配, 得到 所述预测词对应的标签, 包括: 获取待识别原 始语句; 利用预训练语言RoBERTa模型, 预测所述待识别原 始语句对应的预测词; 利用所述调整标签词映射器, 匹配所述预测词对应的标签。 7.根据权利要求6所述的意 图识别方法, 其特征在于, 所述利用预训练语言RoBERTa模 型, 预测所述待识别原 始语句对应的预测词, 包括: 将所述待识别原始语句输入到所述预训练语言RoBERTa模型的预设prompt模板, 利用 MLM模型预测得到所述预设prompt模板的答案文本空位置的预测词; 其中, 所述预设pr ompt 模板包括所述 答案文本空位置和用于 输入所述待识别原 始语句的输入空位置 。 8.一种意图识别装置, 其特 征在于, 包括: 构建模块, 用于利用预训练模型, 获取各标签各自对应的标签相近词, 构建标签词映射 器; 提取模块, 用于利用预设正则表达式, 获取各标签各自对应的小样本标注数据; 其中, 所述预设正则表达式包括各 所述标签各自对应的标签关键词; 调整模块, 用于根据 所述小样本标注数据, 对所述标签词映射器进行频率调整和/或相 关性调整, 获取调整标签词映射器; 匹配模块, 用于利用所述调整标签词映射器, 对预训练语言模型预测得到的待识别原 始语句对应的预测词进行匹配, 得到所述预测词对应的标签。 9.一种意图识别设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的意图识别方法 的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的意图识别方法的 步骤。权 利 要 求 书 2/2 页 3 CN 115526171 A 3

PDF文档 专利 一种意图识别方法、装置、设备及计算机可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种意图识别方法、装置、设备及计算机可读存储介质 第 1 页 专利 一种意图识别方法、装置、设备及计算机可读存储介质 第 2 页 专利 一种意图识别方法、装置、设备及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。