iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210878718.5 (22)申请日 2022.07.25 (71)申请人 泰康保险集团股份有限公司 地址 100031 北京市西城区复兴门内大街 156号泰康人寿大厦 (72)发明人 邓晓雨 李钊 赵凯 党莹 刘岩  (74)专利代理 机构 中原信达知识产权代理有限 责任公司 1 1219 专利代理师 李阳 徐敏 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/211(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 一种问答数据处 理方法和装置 (57)摘要 本发明公开了问答数据处理方法和装置, 一 具体实施方式包括响应于问答请求, 确定请求领 域, 调用知识库以获取对应的蕴含关系词语和同 义关系词语; 将所述问答请求中的语句进行分词 处理, 进而基于所述蕴含关系词语去除分词处理 后语句中的被蕴含分词, 以得到待检索语句; 调 用预设的语料库, 通过所述的同义关系词语对所 述待检索语句进行相似度计算, 以匹配得到相似 度最高的语句并输出。 从而, 本发明能够解决现 有由于语句中冗余信息以及领域同义词导致相 似度计算结果产生偏差的问题, 同时克服了有监 督方式下对大量数据的标注需求的缺 点。 权利要求书2页 说明书14页 附图4页 CN 115269776 A 2022.11.01 CN 115269776 A 1.一种问答数据处 理方法, 其特 征在于, 包括: 响应于问答请求, 确定请求领域, 调用 知识库以获取对应的蕴含关系词语和同义关系 词语; 将所述问答请求中的语句进行分词处理, 进而基于所述蕴含关系词语去除分词处理后 语句中的被蕴含分词, 以得到待检索语句; 调用预设的语料库, 通过所述的同义关系词语对所述待检索语句进行相似度计算, 以 匹配得到相似度最高的语句并输出。 2.根据权利要求1所述的方法, 其特征在于, 调用知识库以获取对应的蕴含关系词语和 同义关系词语之前, 包括: 获取待检索语句数据集和候选语句数据集, 通过 预设的匹配模型生成相似句对集 合; 对相似句对集合中的每组相似句对分别进行分词处理, 得到每组相似句对的分词集 合, 生成每组相似句对的所有知识关系可能解; 其中, 知识关系可能解包括 蕴含关系词语和 同义关系词语; 根据预设的每组各个知识关系可能解的概率, 计算同一种知识关系可能解在所述相似 句对集合中的概 率之和, 以得到概 率最大的知识关系可能解; 通过概率最大的知识关系可能解与分词集合中剩余分词之间的所有知识关系可能解, 分别组成多个待处 理结果; 根据多个待处理结果, 确定能够覆盖分词集合中所有分词的待处理结果, 以将该待处 理结果中包括的知识关系作为 最终结果存 储至知识库。 3.根据权利要求2所述的方法, 其特征在于, 获取待检索语句数据集和候选语句数据 集, 通过预设的匹配模型生成相似句对集 合, 包括: 获取一种领域的待检索语句数据集, 基于待检索语句数据集中的每个标准语句通过预 设的深度模型或预设的搜索引擎得到相似语句, 进 而通过相似语句生成候选语句数据集; 根据待检索语句数据集和候选语句数据集, 将每个标准语句与对应的相似语句进行两 两配对, 得到相似句对, 进 而生成相似句对集 合。 4.根据权利要求2所述的方法, 其特征在于, 得到每组相似句对的分词集合, 生成每组 相似句对的所有知识关系可能解, 包括: 对每组相似句对的分词集合进行分词编码, 以删除具有相同编码的分词得到第 一编码 集合, 并将相同编码的分词组合 生成第二编码集 合; 根据第一编码集合中标准语句的分词与相似语句的分词, 以及第 一编码集合中的分词 与第二编 码集合中的分词, 组合生成每组相似句对的所有知识关系可能解; 其中, 第一编码 集合中标准语句的分词 与相似语句的分词能够生成同义关系词语, 第一编 码集合中的分词 与第二编码集 合中的分词能够生成 蕴含关系词语。 5.根据权利要求4所述的方法, 其特征在于, 对每组相似句的分词集合进行分词编码之 前, 包括: 对每组相似句的分词集合进行分词词性标注, 定位目标分词词性, 以去 除具有该目标 分词词性的分词。 6.根据权利要求4所述的方法, 其特征在于, 对每组相似句对的分词集合进行分词编码 之后, 包括:权 利 要 求 书 1/2 页 2 CN 115269776 A 2调用预设的同义词林, 确定编码不同的分词之间存在的同义词关系, 将同义词关系的 两个分词从第一编码集 合中删除, 并存 储至第二编码集 合。 7.根据权利要求2所述的方法, 其特 征在于, 还 包括: 根据多个待处理结果, 确定能够覆盖所有分词且包括的知识关系数量最少的待处理结 果, 以将该待处 理结果中包括的知识关系作为 最终结果存 储至知识库。 8.一种问答数据处 理装置, 其特 征在于, 包括: 获取模块, 用于响应于问答请求, 确定请求领域, 调用知识库以获取对应的蕴含关系词 语和同义关系词语; 处理模块, 用于将所述问答请求中的语句进行分词处理, 进而基于所述蕴含关系词语 去除分词处理后语句中的被蕴含分词, 以得到待检索语句; 调用预设的语料库, 通过所述的 同义关系词语对所述待检索语句进行相似度计算, 以匹配得到相似度最高的语句并输出。 9.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑7中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执 行时实现如权利要求1 ‑7中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115269776 A 3

PDF文档 专利 一种问答数据处理方法和装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种问答数据处理方法和装置 第 1 页 专利 一种问答数据处理方法和装置 第 2 页 专利 一种问答数据处理方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。