iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210848565.X (22)申请日 2022.07.19 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 丁锐  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 马小青 (51)Int.Cl. G06V 30/414(2022.01) G06V 30/416(2022.01) G06V 30/413(2022.01) G06V 30/42(2022.01) G06F 40/295(2020.01)G06N 3/04(2006.01) G06Q 40/02(2012.01) (54)发明名称 一种文本结构化方法及装置 (57)摘要 本申请公开一种文本结构化方法及装置, 涉 及信息处理的技术领域, 该方法包括: 获取第一 文本, 确定第一文本中元素的位置, 根据元素的 位置, 提取第一文本中元素的内容信息, 根据提 取的第一文本中元素的内容信息, 对第一文本进 行结构化处理, 获得结构化文本。 本申请中可 以 确定包括文本标题、 文本段落、 文本图片和文本 表格的元素的位置, 通过元素的位置提取第一文 本中元素的内容信息, 进而根据提取第一文本中 元素的内容信息对第一文本结构化处理, 本申请 可以提取第一文本中有效的内容信息, 将有效的 内容信息 结构化, 这样就可以从形式多样且冗长 的合同文档中提出需要的信息, 审核人员基于此 结构化文本进行合同审核可以提高审核合同的 效率, 节省时间。 权利要求书2页 说明书7页 附图3页 CN 115171140 A 2022.10.11 CN 115171140 A 1.一种文本结构化方法, 其特 征在于, 包括: 获取第一文本; 确定所述第 一文本中元素的位置; 所述元素包括文本标题、 文本段落、 文本图片和文本 表格; 根据所述元 素的位置, 提取 所述第一文本中元 素的内容信息; 根据提取的所述第一文本中元素的内容信息, 对所述第一文本进行结构化处理, 获得 结构化文本 。 2.根据权利要求1中所述的方法, 其特征在于, 所述根据提取的所述第 一文本中元素的 内容信息, 对所述第一文本进行 结构化处 理, 获得结构化文本, 包括: 根据文本标题位置和文本段落位置, 对所述文本标题和所述文本段落进行名称识别、 关系提取和事件提取, 获得所述文本标题和所述文本段落的内容信息; 所述名称识别用于 提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述 文本段落中目标名称之 间的关系, 所述事件提取用于提取所述文本标题和所述文本段落中 描述的事 件; 根据文本表格位置, 对所述文本表格进行识别, 提取 所述文本表格中的数据内容信息; 根据文本图片的位置, 提取 所述文本图片的文字内容信息 。 3.根据权利要求1中所述的方法, 其特征在于, 所述确定所述第一文本中元素的位置, 包括: 识别所述第一文本中的元 素; 基于预设的神经网络模型, 确定所述第一文本中识别后的元 素的位置 。 4.根据权利要求1中所述的方法, 其特征在于, 所述在获取第 一文本之前所述方法还包 括: 获取原文档; 利用光学字符识别OCR算法, 对所述原文档进行识别, 获取第一文本 。 5.根据权利要求 4中所述方法, 其特 征在于, 所述方法还 包括: 将所述原文档和所述结构化文本进行比对; 校验所述结构化文本和所述原文档中元 素的内容信息是否一 致。 6.一种文本结构化装置, 其特 征在于, 包括: 第一获取 单元, 用于获取第一文本; 第一确定单元, 用于确定所述第 一文本中元素的位置; 所述元素包括文本标题、 文本段 落、 文本图片和文本表格; 提取单元, 用于根据所述元 素的位置, 提取 所述第一文本中元 素的内容信息; 结构化单元, 根据提取的所述第一文本中元素的内容信息, 对所述第一文本进行结构 化处理, 获得结构化文本 。 7.根据权利要求6中所述的装置, 其特 征在于, 所述 提取单元, 具体用于: 根据文本标题位置和文本段落位置, 对所述文本标题和所述文本段落进行名称识别、 关系提取和事件提取, 获得所述文本标题和所述文本段落的内容信息; 所述名称识别用于 提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述 文本段落中目标名称之 间的关系, 所述事件提取用于提取所述文本标题和所述文本段落中权 利 要 求 书 1/2 页 2 CN 115171140 A 2描述的事 件; 根据文本表格位置, 对所述文本表格进行识别, 提取 所述文本表格中的数据内容信息; 根据文本图片的位置, 提取 所述文本图片的文字内容信息 。 8.根据权利要求6中所述的装置, 第一确定单 元, 具体用于: 识别所述第一文本中的元 素; 基于预设的神经网络模型, 确定所述第一文本中识别后的元 素的位置 。 9.根据权利要求8中所述的装置, 其特 征在于, 所述装置还 包括: 第二获取 单元, 用于获取原文档; 第三获取单元, 用于利用光学字符识别OCR算法, 对所述原文档进行识别, 获取第一文 本。 10.根据权利要求9中所述装置, 其特 征在于, 所述装置还 包括: 比对单元, 用于将所述原文档和所述结构化文本进行比对; 校验单元, 用于校验所述结构化文本和所述原文档中元 素的内容信息是否一 致。权 利 要 求 书 2/2 页 3 CN 115171140 A 3

.PDF文档 专利 一种文本结构化方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本结构化方法及装置 第 1 页 专利 一种文本结构化方法及装置 第 2 页 专利 一种文本结构化方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:19:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。