iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210878718.5 (22)申请日 2022.07.25 (71)申请人 泰康保险集团股份有限公司 地址 100031 北京市西城区复兴门内大街 156号泰康人寿大厦 (72)发明人 邓晓雨 李钊 赵凯 党莹 刘岩 (74)专利代理 机构 中原信达知识产权代理有限 责任公司 1 1219 专利代理师 李阳 徐敏 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/211(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 一种问答数据处 理方法和装置 (57)摘要 本发明公开了问答数据处理方法和装置, 一 具体实施方式包括响应于问答请求, 确定请求领 域, 调用知识库以获取对应的蕴含关系词语和同 义关系词语; 将所述问答请求中的语句进行分词 处理, 进而基于所述蕴含关系词语去除分词处理 后语句中的被蕴含分词, 以得到待检索语句; 调 用预设的语料库, 通过所述的同义关系词语对所 述待检索语句进行相似度计算, 以匹配得到相似 度最高的语句并输出。 从而, 本发明能够解决现 有由于语句中冗余信息以及领域同义词导致相 似度计算结果产生偏差的问题, 同时克服了有监 督方式下对大量数据的标注需求的缺 点。 权利要求书2页 说明书14页 附图4页 CN 115269776 A 2022.11.01 CN 115269776 A 1.一种问答数据处 理方法, 其特 征在于, 包括: 响应于问答请求, 确定请求领域, 调用 知识库以获取对应的蕴含关系词语和同义关系 词语; 将所述问答请求中的语句进行分词处理, 进而基于所述蕴含关系词语去除分词处理后 语句中的被蕴含分词, 以得到待检索语句; 调用预设的语料库, 通过所述的同义关系词语对所述待检索语句进行相似度计算, 以 匹配得到相似度最高的语句并输出。 2.根据权利要求1所述的方法, 其特征在于, 调用知识库以获取对应的蕴含关系词语和 同义关系词语之前, 包括: 获取待检索语句数据集和候选语句数据集, 通过 预设的匹配模型生成相似句对集 合; 对相似句对集合中的每组相似句对分别进行分词处理, 得到每组相似句对的分词集 合, 生成每组相似句对的所有知识关系可能解; 其中, 知识关系可能解包括 蕴含关系词语和 同义关系词语; 根据预设的每组各个知识关系可能解的概率, 计算同一种知识关系可能解在所述相似 句对集合中的概 率之和, 以得到概 率最大的知识关系可能解; 通过概率最大的知识关系可能解与分词集合中剩余分词之间的所有知识关系可能解, 分别组成多个待处 理结果; 根据多个待处理结果, 确定能够覆盖分词集合中所有分词的待处理结果, 以将该待处 理结果中包括的知识关系作为 最终结果存 储至知识库。 3.根据权利要求2所述的方法, 其特征在于, 获取待检索语句数据集和候选语句数据 集, 通过预设的匹配模型生成相似句对集 合, 包括: 获取一种领域的待检索语句数据集, 基于待检索语句数据集中的每个标准语句通过预 设的深度模型或预设的搜索引擎得到相似语句, 进 而通过相似语句生成候选语句数据集; 根据待检索语句数据集和候选语句数据集, 将每个标准语句与对应的相似语句进行两 两配对, 得到相似句对, 进 而生成相似句对集 合。 4.根据权利要求2所述的方法, 其特征在于, 得到每组相似句对的分词集合, 生成每组 相似句对的所有知识关系可能解, 包括: 对每组相似句对的分词集合进行分词编码, 以删除具有相同编码的分词得到第 一编码 集合, 并将相同编码的分词组合 生成第二编码集 合; 根据第一编码集合中标准语句的分词与相似语句的分词, 以及第 一编码集合中的分词 与第二编 码集合中的分词, 组合生成每组相似句对的所有知识关系可能解; 其中, 第一编码 集合中标准语句的分词 与相似语句的分词能够生成同义关系词语, 第一编 码集合中的分词 与第二编码集 合中的分词能够生成 蕴含关系词语。 5.根据权利要求4所述的方法, 其特征在于, 对每组相似句的分词集合进行分词编码之 前, 包括: 对每组相似句的分词集合进行分词词性标注, 定位目标分词词性, 以去 除具有该目标 分词词性的分词。 6.根据权利要求4所述的方法, 其特征在于, 对每组相似句对的分词集合进行分词编码 之后, 包括:权 利 要 求 书 1/2 页 2 CN 115269776 A 2调用预设的同义词林, 确定编码不同的分词之间存在的同义词关系, 将同义词关系的 两个分词从第一编码集 合中删除, 并存 储至第二编码集 合。 7.根据权利要求2所述的方法, 其特 征在于, 还 包括: 根据多个待处理结果, 确定能够覆盖所有分词且包括的知识关系数量最少的待处理结 果, 以将该待处 理结果中包括的知识关系作为 最终结果存 储至知识库。 8.一种问答数据处 理装置, 其特 征在于, 包括: 获取模块, 用于响应于问答请求, 确定请求领域, 调用知识库以获取对应的蕴含关系词 语和同义关系词语; 处理模块, 用于将所述问答请求中的语句进行分词处理, 进而基于所述蕴含关系词语 去除分词处理后语句中的被蕴含分词, 以得到待检索语句; 调用预设的语料库, 通过所述的 同义关系词语对所述待检索语句进行相似度计算, 以匹配得到相似度最高的语句并输出。 9.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑7中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执 行时实现如权利要求1 ‑7中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115269776 A 3
专利 一种问答数据处理方法和装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:29
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-Z 40847-2021 认知康复训练系统通用技术条件.pdf
GB-T 33483-2016 党政机关电子公文系统运行维护规范.pdf
思度安全-DSMM-003人员安全管理规范V1.0.pdf
GB-T 15843.3-2023 信息技术 安全技术 实体鉴别 第3部分:采用数字签名技术的机制.pdf
中国联通 5G专网安全技术白皮书.pdf
电信研究院 游耀东 DevSecOps在云网融合环境下的实践 2021.pdf
绿盟 大模型浪潮下的全球网络安全思考 陈珂.pdf
GB-T 4780-2020 汽车车身术语.pdf
GB-T 34990-2017 信息安全技术 信息系统安全管理平台技术要求和测试评价方法.pdf
GB-T 17729-2023 长途客车内空气质量要求及检测方法.pdf
SY-T 7678-2023 二氧化碳驱油田站内工艺管道施工技术规范.pdf
DB5301-T 79-2022 计量器具监督抽查工作规范 流通领域 昆明市.pdf
GM-T 0005-2021 随机性检测规范.pdf
GB-T 42018-2022 信息技术 人工智能 平台计算资源规范.pdf
GB-T 22186-2016 信息安全技术 具有中央处理器的IC卡芯片安全技术要求.pdf
GB-T 18916.53-2021 取水定额 第53部分:食糖.pdf
GB-Z 24294.4-2017 信息安全技术 基于互联网电子政务信息安全实施指南 第4部分:终端安全防护.pdf
T-CI 047—2021 医用镥[177Lu]及其放射性药物的 质量标准.pdf
工信部 2022网络安全产业人才发展报告.pdf
GB-T 1981.1-2007 电气绝缘用漆 第1部分:定义和一般要求.pdf
1
/
21
评价文档
赞助3元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。