iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210996284.9 (22)申请日 2022.08.19 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 祝福松 常宁航 金华锋 曹哲  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 唐彩琴 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/31(2019.01) (54)发明名称 搜索方法、 装置、 计算机设备和存 储介质 (57)摘要 本申请涉及一种搜索方法、 装置、 计算机设 备和存储介质。 所述方法包括: 响应于搜索需求 方输入的搜索信息, 从候选数据集中进行搜索, 得到所述搜索信息的搜索结果; 其中, 所述候选 数据集根据原始数据集中的相似数据对的数据 关注度, 对所述原始数据集进行去重处理后得 到; 输出所述搜索结果。 采用本方法能够高效且 低冗余的获取搜索结果。 权利要求书2页 说明书18页 附图6页 CN 115269785 A 2022.11.01 CN 115269785 A 1.一种搜索方法, 其特 征在于, 所述方法包括: 响应于搜索需求方输入的搜索信息, 从候选数据集中进行搜索, 得到所述搜索信息的 搜索结果; 其中, 所述候选数据集根据原始数据集中的相似数据对的数据关注度, 对所述原 始数据集进行去重处 理后得到; 输出所述搜索结果。 2.根据权利要求1所述的方法, 其特征在于, 所述响应于搜索需求方输入的搜索信息, 从候选数据集中进行搜索, 得到所述搜索信息的搜索结果, 包括: 响应于所述搜索需求方输入的搜索语句, 从候选文本集中进行搜索, 得到所述搜索语 句的搜索结果; 其中, 所述候选文本集根据原始文本集中的相似文本对的文本关注度, 对所 述原始文本集进行去重处 理后得到 。 3.根据权利要求2所述的方法, 其特征在于, 所述根据原始文本集中的相似文本对的文 本关注度, 对所述原 始文本集进行去重处 理, 包括: 根据所述原始文本集中不同原始文本之间的距离, 从所述原始文本集中提取相似文本 对; 根据所述相似文本对中每一相似文本的文本关注度, 从所述相似文本对中确定待剔除 文本; 从所述原 始文本集中剔除所述待剔除文本, 得到所述 候选文本集。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述相似文本对中每一相似文本 的文本关注度, 从所述相似文本对中确定待剔除文本, 包括: 对所述相似文本对进行聚类, 得到相似文本集; 根据所述相似文本集中每一相似文本的文本关注度, 从所述相似文本集中确定所述待 剔除文本 。 5.根据权利要求2 ‑4中任一项所述的方法, 其特征在于, 所述相似文本的文本关注度包 括: 所述相似文本的被浏览量和/或被点赞量。 6.根据权利要求2所述的方法, 其特征在于, 所述响应于所述搜索需求方输入的搜索语 句, 从候选文本集中进行搜索, 得到所述搜索语句的搜索结果, 包括: 对所述搜索语句进行扩展, 得到所述搜索语句的相似语句; 根据所述相似语句, 从所述 候选文本集中进行搜索, 得到所述相似语句的目标文本集; 根据所述相似语句的目标文本集, 确定所述搜索语句的搜索结果。 7.根据权利要求6所述的方法, 其特征在于, 所述对所述搜索语句进行扩展, 得到所述 搜索语句的相似语句, 包括: 将所述搜索语句输入相似语句生成模型, 得到所述相似语句, 以及所述搜索语句与所 述相似语句之间的第一相似度。 8.根据权利要求6或7所述的方法, 其特征在于, 所述根据所述相似语句, 从所述候选文 本集中进行搜索, 得到所述相似语句的目标文本集, 包括: 根据所述相似语句, 从预设的倒排索引中搜索与所述相似语句相似的目标关键词; 其 中, 所述倒排索引包括各个候选关键词与所述候选文本集中候选文本之间的对应关系, 所 述候选关键词从所述 候选文本集中提取; 根据所述目标关键词, 从所述倒排索引中确定所述目标关键词对应的候选文本, 并基权 利 要 求 书 1/2 页 2 CN 115269785 A 2于所述目标关键词对应的候选文本确定所述相似语句的目标文本集。 9.根据权利要求8所述的方法, 其特征在于, 所述根据所述相似语句的目标文本集, 确 定所述搜索语句的搜索结果, 包括: 根据所述搜索语句与 所述相似语句之间的第 一相似度, 以及所述目标关键词与所述目 标关键词在目标文本集中对应的目标文本之间的第二相似度, 确定所述相似语句与所述目 标文本集中各个目标文本之间的第三相似度; 根据所述第三相似度, 对所述目标文本集中的各个目标文本进行排序, 并将排序后的 目标文本作为所述搜索语句的搜索结果。 10.根据权利要求9所述的方法, 其特征在于, 所述根据所述第 三相似度, 对所述目标文 本集中的各个目标文本进行排序, 并将排序后的目标文本作为所述搜索语句的搜索结果, 包括: 根据所述第 三相似度, 确定所述搜索语句与所述目标文本集中各个目标文本之间的第 四相似度; 根据所述第四相似度, 对所述目标文本集中的各个目标文本进行排序, 并将排序后的 目标文本作为所述搜索语句的搜索结果。 11.根据权利要求9所述的方法, 其特征在于, 所述根据所述搜索语句与所述相似语句 之间的第一相似度, 以及所述目标关键词 与所述目标关键词在目标文本集中对应的目标文 本之间的第二相似度, 确定所述相似语句与所述目标文本集中各个目标文本之 间的第三相 似度, 包括: 根据所述第一相似度和所述第二相似度的乘积, 确定所述第三相似度。 12.根据权利要求6所述的方法, 其特征在于, 若所述相似语句的数量为至少两个, 则所 述根据所述相似语句, 从所述候选文本集中进行搜索, 得到所述相似语句的目标文本集, 包 括: 确定各相似语句的搜索顺序; 按照所述搜索顺序, 依次从所述候选文本集中搜索各相似语句的目标文本集; 其中, 在 每次搜索过程中, 跳过 所述候选文本集中已搜索过的相似语句的目标文本 。 13.根据权利要求2所述的方法, 其特征在于, 所述候选文本集中的候选文本为业务工 单文本。 14.一种搜索装置, 其特 征在于, 所述装置包括: 搜索模块, 用于响应于搜索需求方输入的搜索信息, 从候选数据集中进行搜索, 得到所 述搜索信息的搜索结果; 其中, 所述候选数据集根据原始数据集中的相似数据对的数据关 注度, 对所述原 始数据集进行去重处 理后得到; 输出模块, 用于 输出所述搜索结果。 15.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。 16.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。 17.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至13中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115269785 A 3

.PDF文档 专利 搜索方法、装置、计算机设备和存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 搜索方法、装置、计算机设备和存储介质 第 1 页 专利 搜索方法、装置、计算机设备和存储介质 第 2 页 专利 搜索方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。