(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211050540.1
(22)申请日 2022.08.31
(65)同一申请的已公布的文献号
申请公布号 CN 115114412 A
(43)申请公布日 2022.09.27
(73)专利权人 北京弘玑信息技 术有限公司
地址 100000 北京市朝阳区望京东园四区
13号楼-4至 33层101内20层202室
专利权人 上海弘玑信息技 术有限公司
(72)发明人 姚贡之 吴鹏劼 高煜光
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 钟扬飞
(51)Int.Cl.
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
(56)对比文件
CN 108416279 A,2018.08.17
CN 113157869 A,2021.07.23
CN 113468316 A,2021.10.01
CN 110688825 A,2020.01.14
US 2009248674 A1,20 09.10.01
审查员 焦月
(54)发明名称
文档中的信息检索方法及电子 设备、 存储介
质
(57)摘要
本申请提供一种文档中的信息检索方法及
电子设备、 存储介质, 该方法包括: 通过对待处理
文档进行解析, 获得包含坐标位置信息的多个候
选文字块; 根据输入的多个关键词, 将候选文字
块与关键词进行模糊匹配, 筛选出置信度大于第
一阈值的目标文字块; 根据每个目标文字块的坐
标位置信息和置信度, 将所有目标文字块进行聚
类, 得到多个簇; 根据每个簇内包含的目标文字
块, 筛选得到多个关键词对应的检索结果。 该方
案由于无需创建多样化的版式, 无需进行复杂的
深度学习过程, 可 以显著的降低实施成本, 缩短
耗费时间。
权利要求书2页 说明书10页 附图7页
CN 115114412 B
2022.11.08
CN 115114412 B
1.一种文档中的信息检索方法, 其特 征在于, 包括:
对待处理文档进行解析, 获得包 含坐标位置信息的多个候选文字块;
根据输入的多个关键词, 将所述候选文字块与所述关键词进行模糊匹配, 筛选出置信
度大于第一阈值的目标文字块;
根据每个目标文字块的坐标位置信息和置信度, 将所有目标文字块进行聚类, 得到多
个簇;
根据每个簇内包 含的目标文字块, 筛 选得到所述多个关键词对应的检索结果;
其中, 所述根据每个目标文字块的坐标位置信息和置信度, 将所有目标文字块进行聚
类, 得到多个簇, 包括:
针对任意两个目标文字块, 根据每个所述目标文字块的坐标位置信息, 计算所述两个
目标文字块之间的第一距离;
根据每个所述目标文字块的置信度, 对所述第一距离进行调整, 得到所述两个目标文
字块之间的第二距离;
根据任意两个目标文字块之间的第 二距离, 通过聚类算法将所有目标文字块 聚类得到
多个簇;
其中, 所述针对任意两个目标文字块, 根据每个所述目标文字块的坐标位置信 息, 计算
所述两个目标文字块之间的第一距离, 包括:
根据每个目标文字块的坐标位置信 息, 通过坐标转换函数调 整每个目标文字块的坐标
值;
根据每个目标文字块的坐标值, 计算所述任意两个目标文字块之间的第一距离;
其中, 所述根据每个目标文字块的坐标位置信息, 通过坐标转换函数调整每个目标文
字块的坐标值, 包括:
根据每个目标文字块的中心坐标, 对所述中心坐标的横坐标值和纵坐标值进行加权,
得到每个目标文字块调整后的坐标值。
2.根据权利要求1所述的方法, 其特征在于, 所述根据输入的多个关键词, 将所述候选
文字块与所述关键词进行模糊匹配, 筛 选出置信度大于第一阈值的目标文字块, 包括:
针对任一候选文字块和任一关键词, 计算所述候选文字块和所述关键词之间的第 一相
似度;
根据所述关键词与 所述候选文字块之间的共同字符, 计算所述共同字符与 所述关键词
之间的第二相似度;
根据所述第一相似度和第二相似度, 计算所述候选文字块与关键词相匹配的置信度,
并将置信度大于第一阈值的候选文字块作为所述目标文字块。
3.根据权利要求1所述的方法, 其特征在于, 在所述根据每个簇内包含的目标文字块,
筛选得到所述多个关键词对应的检索结果之前, 所述方法还 包括:
根据每个簇内的目标文字块命中的关键词个数, 将所有簇进行分组;
针对任一目标组, 根据目标组内簇的最大置信度, 对所述目标组内的簇进行 过滤;
根据除所述目标组外, 其 余组的平均置信度, 对所述目标组内的簇进行 过滤。
4.根据权利要求3所述的方法, 其特征在于, 所述针对任一目标组, 根据目标组内簇的
最大置信度, 对所述目标组内的簇进行 过滤, 包括:权 利 要 求 书 1/2 页
2
CN 115114412 B
2根据每个簇包含的目标文字块的置信度, 计算得到每 个簇的平均置信度;
针对任一目标组, 根据 所述目标组内指定簇的平均置信度和所述目标组内簇的最大置
信度, 若所述指定簇命中的关键词被所述目标 组内其余簇命中的关键词完全覆盖, 且, 所述
指定簇的平均置信度减去 所述目标 组内簇的最大置信度的差值大于第二阈值, 则删除所述
指定簇。
5.根据权利要求3所述的方法, 其特征在于, 所述根据除所述目标组外, 其余组的平均
置信度, 对所述目标组内的簇进行 过滤, 包括:
根据所述目标组内单个簇对应命中的第 一关键词个数, 从其余分组中筛选出组内单个
簇命中关键词个数 大于所述第一关键词个数的指定分组;
根据所述指定分组包含的簇, 以及每个簇包含的目标文字块的置信度, 计算得到所述
指定分组的平均置信度;
针对任一目标组, 根据 所述目标组内指定簇的平均置信度和所述指定分组的平均置信
度, 若所述指定簇命中的关键词被所述指定 分组内簇命中的关键词完全覆盖, 且, 所述指 定
簇的平均置信度减去所述指定分组的平均置信度的差值大于第三阈值, 则删除所述指定
簇。
6.根据权利要求3所述的方法, 其特征在于, 所述根据每个簇内包含的目标文字块, 筛
选得到所述多个关键词对应的检索结果, 包括:
针对剩余的簇, 根据同一簇内包含的目标文字块的坐标位置信息, 构建同一簇内包含
的目标文字块的最小外 接矩形;
对所述最小外接矩形和/或所述 最小外接矩形内所有的目标文字块进行突出显示。
7.一种电子设备, 其特 征在于, 所述电子设备包括:
处理器;
用于存储处理器可执行指令的存 储器;
其中, 所述处 理器被配置为执 行权利要求1 ‑6任意一项所述的文档中的信息检索方法。
8.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计算
机程序可由处 理器执行以完成权利要求1 ‑6任意一项所述的文档中的信息检索方法。权 利 要 求 书 2/2 页
3
CN 115114412 B
3
专利 文档中的信息检索方法及电子设备、存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:15:30上传分享