iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211130339.4 (22)申请日 2022.09.16 (71)申请人 重庆长安汽车股份有限公司 地址 400020 重庆市江北区鱼嘴镇长安汽 车全球研发中心 (72)发明人 田尊明 陈浩 杨稷  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 张伟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/2452(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01)G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于表格数据检索的智能会话方法及服务 器 (57)摘要 本申请涉及一种基于表格数据检索的智能 会话方法及服务器, 其中, 方法包括: 基于输入语 料, 调用实体抽取和句法分析方法, 获得实体抽 取和句法分析结果, 并根据表格实体词信息, 进 行特征拼接和特征编码, 基于编码后的特征, 调 用查询语言转换模型, 生成SQL语句; 基于SQL语 句, 提交数据库执行引擎, 获得执行结果后, 通过 接口返回, 作为输入语料的答复。 由此, 解决了相 关技术中编码层的复杂较高, 导致算法的准确性 较差和推理效率较低等问题。 权利要求书4页 说明书16页 附图2页 CN 115495563 A 2022.12.20 CN 115495563 A 1.一种基于表格数据检索的智能会话方法, 其特 征在于, 包括以下步骤: 接收输入语料, 调用语法纠错方法, 获得纠错后的输入语料; 基于所述纠错后的输入语料, 查询预设高频问题SQL库, 若命中则返回查得SQL结果, 若 未命中则基于所述纠错后的输入语料, 调用意图分类方法, 若未命中则返回无法回答的状 态, 若命中检索意图, 则基于所述输入语料, 调用实体抽取和句法分析方法, 获得实体抽取 和句法分析 结果; 基于实体抽取结果, 查找表格实体词库, 获得表格实体的查询结果, 并基于表格实体查 询结果, 调用表格召回方法, 获得目标表格, 并筛 选对应的表格实体词信息; 基于输入语料的实体抽取和句法分析结果, 和表格实体词信息, 进行特征拼接和特征 编码, 基于编码后的特 征, 调用查询语言转换模型, 生成SQ L语句; 基于所述SQL语句, 提交数据库执行引擎, 获得执行结果后, 通过接口返回, 作为所述输 入语料的答复。 2.根据权利要求1所述的方法, 其特征在于, 所述基于编码后的特征, 调用查询语言转 换模型, 生成SQ L语句, 包括: 获得查询的目标列, 查询目标列的聚合操作方法, 过滤条件目标列, 过滤条件目标列对 应的比较逻辑和比较值, 过滤条件间的逻辑的分类预测结果, 并结合预设SQL语法规范和表 格间的关联关系, 生成所述SQ L语句。 3.根据权利要求1所述的方法, 其特征在于, 所述接收输入语料, 调用语法纠错方法, 获 得纠错后的输入语料, 包括: 针对输入语料进行分词, 结合窗口平 移方法, 获得有上 下文特征的分词组合; 针对所述分词组合, 采用预训练的语言统计学模型进行评分, 将分值中离均差最大的 位点, 作为潜在错 误位点; 针对潜在错误位点对应的字符, 采用预设同音字和形近字、 和预设常见混淆词典获得 候选字符集; 针对候选 字符替换错 误位点字符的语句, 再次评分, 获得最优结果, 作为纠错后结果。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述纠 错后的输入语料, 调用意 图分类方法, 包括: 针对输入语料, 采用预训练的文本分类模型 预测是否属于预设检索意图; 若属于所述预设检索意图, 则根据所述输入语料进行实体词提取; 若不属于所述预设检索意图, 则进行非检索意图提示, 并执行表格数据检索服务无法 应答的操作。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述输入语料进行实体词提取, 包括: 提取所述输入语料中的实体词, 作为潜在实体词; 对所述输入语料进行分词和词性 提取, 作为语言 分词; 将所述潜在实体词和所述语言 分词, 作为所述实体词。 6.根据权利要求5所述的方法, 其特征在于, 所述提取所述输入语料中的实体词, 作为 潜在实体词, 包括: 对所述输入语料进行表示归一 化处理, 得到归一 化语句;权 利 要 求 书 1/4 页 2 CN 115495563 A 2根据正则表达式对所述归一化语句进行时间和数值提取, 调用预训练的NER模型对所 述归一化语句进 行通用名称提取, 将提取得到的实体词与对应的实体词类型作为所述潜在 实体词。 7.根据权利要求5所述的方法, 其特征在于, 所述表格实体召回和目标表格召回方法, 包括: 根据所述实体词, 匹配表格实体映射表, 获得表格实体的召回结果; 基于表格实体的召回结果, 查询表格关系图数据, 结合路径搜索算法, 获得最短路径的 查询结果。 8.根据权利要求1所述的方法, 其特 征在于, 所述语言转换模型包括: 模型主体采用ERI NE预训练模型框架; 编码层, 采用输入语料的字符特征, 表格列名的字符特征, 语料实体和表格实体的配对 特征, 句法分析 特征, 分别进行编码化后的结果作为输入; 推理层, 将查询的目标列, 查询目标列的聚合操作方法, 过滤条件目标列, 过滤条件目 标列对应的比较逻辑和比较值, 过 滤条件间的逻辑, 作为预测目标。 9.根据权利要求8所述的方法, 其特 征在于, 所述语言转换模型的训练方法包括: 将推理层的任务预测结果和实际结果的差异作为损失值, 最小损失值总和作为迭代目 标, 进行联合训练。 10.根据权利要求7 所述的方法, 其特 征在于, 在查找 表格实体词库之前, 还 包括: 确定数据检索表格; 提取所述数据检索表格 中枚举字段, 并提取字段信息, 建立包含字段值、 字段名和表名 的映射关系表; 从所述数据检索表格中提取包含枚举和数值型字段的字段名和表名实体词记录, 并添 加至所述映射关系表中; 调用fast text词向量模型对所述字段值进行向量 化处理; 将所述映射关系表作为所述表格实体词库。 11.一种基于表格数据检索的智能会话 服务器, 其特 征在于, 包括: 预处理模块, 用于 接收输入语料, 调用语法纠错方法, 获得纠错后的输入语料; 分析模块, 用于基于所述纠错后的输入语料, 查询预设高频问题SQL库, 若命中则返回 查得SQL结果, 若未命中则基于所述纠错后的输入语料, 调用意图分类方法, 若未命中则返 回无法回答的状态, 若命中检索意图, 则基于所述输入语料, 调用实体抽取和句法分析方 法, 获得实体抽取和句法分析 结果; 筛选模块, 用于基于实体抽取结果, 查找表格实体词表, 获得表格实体的查询结果, 并 基于表格实体查询结果, 调用表格召回方法, 获得目标表格, 并筛选对应的表格实体词信 息; 生成模块, 用于基于输入语料的实体抽取和句法分析结果, 和表格实体词信息, 进行特 征拼接和特 征编码, 基于编码后的特 征, 调用查询语言转换模型, 生成SQ L语句; 反馈模块, 用于基于所述SQL语句, 提交数据库执行引擎, 获得执行结果后, 通过接口返 回, 作为所述输入语料的答复。 12.根据权利要求11所述的服务器, 其特征在于, 所述生成模块进一步用于获得查询的权 利 要 求 书 2/4 页 3 CN 115495563 A 3

PDF文档 专利 基于表格数据检索的智能会话方法及服务器

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于表格数据检索的智能会话方法及服务器 第 1 页 专利 基于表格数据检索的智能会话方法及服务器 第 2 页 专利 基于表格数据检索的智能会话方法及服务器 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。