iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211074234.1 (22)申请日 2022.09.02 (71)申请人 中国气象局机关服 务中心 地址 100081 北京市海淀区中关村南大街 46号 申请人 北京合众鼎成科技有限公司 (72)发明人 周欣 司惠菊 魏娟 谢仁强 石丽 郭雪飞 董江 席楠 翟畅 徐静 周露 (74)专利代理 机构 北京知元同创知识产权代理 事务所(普通 合伙) 11535 专利代理师 刘元霞 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01)G06F 16/36(2019.01) G06F 40/30(2020.01) (54)发明名称 一种基于匹配度进行内容匹配的智能问答 系统 (57)摘要 本发明公开了一种基于匹配度进行内容匹 配的智能问答系统、 以及基于匹配度进行内容匹 配的方法及装置, 其中方法包括: 获取经过格式 处理的查询内容; 确定经过格式处理的查询内容 与每个文本段落的候选段落匹配度, 将候选段落 匹配度大于第一匹配度阈值的文本段落确定为 候选段落; 在每个候选段落中选择与经过格式处 理的查询内容相关联的答案片段, 并确定经过格 式处理的查询内容与每个答案片段的答案片段 匹配度; 基于候选段落匹配度和答案片段匹配 度, 确定经过格式处理的查询内容与答案片段的 匹配度; 以及基于经过格式处理的查询内容与答 案片段的匹配度, 从多个答案片段中选择与经过 格式处理的查询内容相关联的至少一个目标子 段落。 权利要求书3页 说明书17页 附图4页 CN 115470332 A 2022.12.13 CN 115470332 A 1.一种基于匹配度进行内容匹配的方法, 所述方法包括: 获取用户输入的原始查询内容, 对所述原始查询内容进行格式处理以获取经过格 式处 理的查询内容; 确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的 候选段落匹配度, 将候选段落匹配度大于第一匹配度阈值的文本段落确定为 候选段落; 在每个候选段落中选择与 所述经过格式处理 的查询内容相关联的答案片段, 并确定所 述经过格式处 理的查询内容与每 个答案片段的答案片段匹配度; 基于所述候选段落匹配度和答案片段匹配度, 确定所述经过格式处理 的查询内容与答 案片段的匹配度; 以及 基于所述经过格式处理 的查询内容与答案片段的匹配度, 从多个答案片段中选择与 所 述经过格式处 理的查询内容相关联的至少一个目标子段落。 2.根据权利要求1所述的方法, 所述对所述原始查询内容进行格式处理以获取经过格 式处理的查询内容, 包括: 获取用于对原 始查询内容进行格式处 理的内容处 理规则; 基于内容处理规则对所述原始查询内容进行格式处理以获取经过格式处理的查询内 容。 3.根据权利要求1所述的方法, 在获取用户输入的原 始查询内容之前还 包括, 将所述文本内容库内多个文档中的每个文档按照自然段进行切分, 以获得多个自然 段; 确定每个文档中的多级标题, 将每级标题和与 标题相关联的至少一个自然段构 成文本 段落。 4.根据权利要求3所述的方法, 还 包括, 确定每个文本段落中的字符数量; 将字符数量大于 字符数量阈值的文本段落确定为待处 理的文本段落; 将待处理 的文本段落进行分割, 直到经过分割所获得的任意文本段落的字符数量均小 于或等于 字符数量阈值 为止。 5.根据权利要求1所述的方法, 所述确定所述经过格式处理的查询内容与文本内容库 内多个文本段落中每 个文本段落的候选段落匹配度, 包括: 使用Bert预训练的语言表征模型Bert1确定所述经过格式处理的查询内容query的语义 特征编码uq: uq=Bert1(query) 使用Bert预训练的语言表征模型Ber t1确定每个文本段落pj的语义特 征编码 计算所述经过格式处理 的查询内容与文本 内容库内多个文本段落中第j个文本段落的 候选段落匹配度 其中, 0<j≤na, j为自然数, na为文本内容库内文本段落的数量。权 利 要 求 书 1/3 页 2 CN 115470332 A 26.根据权利要求5所述的方法, 其中, 在确定所述经过格式处理 的查询内容与文本 内容 库内多个文本段落中每个文本段落的候选段落匹配度, 将候选段落匹配度大于第一匹配度 阈值的文本段落确定为 候选段落时, 涉及以下损失函数: 其中, λ为超参数, Ω‑为与经过格式处理的查询内容query无关的文档的集合; Ω+为与 经过格式处 理的查询内容query相关的文档的集 合。 7.根据权利要求5所述的方法, 在将候选段落匹配度大于第一匹配度阈值的文本段落 确定为候选段落后, 将候选段落构成候选段落 集合: 8.根据权利要求1所述的方法, 所述在每个候选段落中选择与所述经过格式处理的查 询内容相关联的答案片段, 包括: 使用Bert预训练的语言表征模型Bert2确定与所述经过格式处理的查询内容相关联的 答案片段的语义特 征编码uqj: uqj=Bert2(concat(query, pj)) 确定答案片段在候选段落中的起始位置Istart和结束位置Iend: 其中, 为起始位置的权重矩阵, 为和终止位置的权重矩阵, softmax是激活函 数, Pstart为起始位置概 率, Pend为终止位置概 率, len(pj)为pj的字符长度; 基于起始位置Istart和结束位置Iend在每个候选段落pj中选择与所述经过格式处理的查 询内容相关联的答案片段。 9.根据权利要求1所述的方法, 在每个候选段落中选择与所述经过格式处理的查询内 容相关联的答案片段时, 涉及以下损失函数: L=α CE(Pstart, Labelstart)+β CE(Pend, Labelend)+γCE(Pspan, Labelspan) 其中, CE表示交叉熵损失函数, Labelstart为标准答案标签的起始位置, Lab elend为标准 答案标签的结束位置, Labelspan表示标准答案标签从起始位置至终止位置的答案片段; α, β, γ是超参数。 10.根据权利要求1所述的方法, 确定所述经过格式处理 的查询内容与每个答案片段的 答案片段匹配度, 包括: 使用Bert预训练的语言表征模型Bert1确定第j个候选 段落的答案片段的语义特征编码 确定所述经 过格式处 理的查询内容uq与第j个答案片段的答案片段匹配度 权 利 要 求 书 2/3 页 3 CN 115470332 A 3
专利 一种基于匹配度进行内容匹配的智能问答系统
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:55
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
DB23-T 3477—2023 黑龙江省企业数字化采购指南 黑龙江省.pdf
GB-T 39768-2021 人类生物样本分类与编码.pdf
GB-T 36344-2018信息技术数据质量评价指标.pdf
T-BJSMYXYJH 0002—2021 树木医生技能考核评价规范.pdf
GB-T 42583-2023 信息安全技术 政务网络安全监测平台技术规范.pdf
GB-T 14812-2008 热管传热性能试验方法.pdf
GB-T 24421.3-2023 服务业组织标准化工作指南 第3部分:标准编制.pdf
信通院 数字营销异常流量研究报告-2022年.pdf
GB-T 28535-2018 铅酸蓄电池隔板.pdf
GM-T 0065-2019 商用密码产品生产和保障能力建设规范.pdf
GB-T 15852.3-2019 信息技术 安全技术 消息鉴别码 第3部分:采用泛杂凑函数的机制.pdf
GB-T 32102-2015 有机过氧化物含量的测定 碘量法.pdf
GB-T 36958-2018 信息安全技术 网络安全等级保护安全管理中心技术要求.pdf
GB-T 22264.2-2022 安装式数字显示电测量仪表 第2部分:电流表和电压表的特殊要求.pdf
GB-T 40873-2021 大洋富钴结壳资源勘查规程.pdf
T-GDTA 005—2023 粤地优品 评价通用要求.pdf
GB-T 37804-2019 冬小麦苗情长势监测规范.pdf
T-CESA 1041—2019 信息技术 人工智能 服务能力成熟度评价参考模型.pdf
奇安信 中国企业邮箱安全性研究报告.pdf
人工智能行业:AI大模型赋能千行百业-国泰君安-2023.7.16-117页.pdf
1
/
25
评价文档
赞助3元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。