iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210848565.X (22)申请日 2022.07.19 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 丁锐 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 马小青 (51)Int.Cl. G06V 30/414(2022.01) G06V 30/416(2022.01) G06V 30/413(2022.01) G06V 30/42(2022.01) G06F 40/295(2020.01)G06N 3/04(2006.01) G06Q 40/02(2012.01) (54)发明名称 一种文本结构化方法及装置 (57)摘要 本申请公开一种文本结构化方法及装置, 涉 及信息处理的技术领域, 该方法包括: 获取第一 文本, 确定第一文本中元素的位置, 根据元素的 位置, 提取第一文本中元素的内容信息, 根据提 取的第一文本中元素的内容信息, 对第一文本进 行结构化处理, 获得结构化文本。 本申请中可 以 确定包括文本标题、 文本段落、 文本图片和文本 表格的元素的位置, 通过元素的位置提取第一文 本中元素的内容信息, 进而根据提取第一文本中 元素的内容信息对第一文本结构化处理, 本申请 可以提取第一文本中有效的内容信息, 将有效的 内容信息 结构化, 这样就可以从形式多样且冗长 的合同文档中提出需要的信息, 审核人员基于此 结构化文本进行合同审核可以提高审核合同的 效率, 节省时间。 权利要求书2页 说明书7页 附图3页 CN 115171140 A 2022.10.11 CN 115171140 A 1.一种文本结构化方法, 其特 征在于, 包括: 获取第一文本; 确定所述第 一文本中元素的位置; 所述元素包括文本标题、 文本段落、 文本图片和文本 表格; 根据所述元 素的位置, 提取 所述第一文本中元 素的内容信息; 根据提取的所述第一文本中元素的内容信息, 对所述第一文本进行结构化处理, 获得 结构化文本 。 2.根据权利要求1中所述的方法, 其特征在于, 所述根据提取的所述第 一文本中元素的 内容信息, 对所述第一文本进行 结构化处 理, 获得结构化文本, 包括: 根据文本标题位置和文本段落位置, 对所述文本标题和所述文本段落进行名称识别、 关系提取和事件提取, 获得所述文本标题和所述文本段落的内容信息; 所述名称识别用于 提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述 文本段落中目标名称之 间的关系, 所述事件提取用于提取所述文本标题和所述文本段落中 描述的事 件; 根据文本表格位置, 对所述文本表格进行识别, 提取 所述文本表格中的数据内容信息; 根据文本图片的位置, 提取 所述文本图片的文字内容信息 。 3.根据权利要求1中所述的方法, 其特征在于, 所述确定所述第一文本中元素的位置, 包括: 识别所述第一文本中的元 素; 基于预设的神经网络模型, 确定所述第一文本中识别后的元 素的位置 。 4.根据权利要求1中所述的方法, 其特征在于, 所述在获取第 一文本之前所述方法还包 括: 获取原文档; 利用光学字符识别OCR算法, 对所述原文档进行识别, 获取第一文本 。 5.根据权利要求 4中所述方法, 其特 征在于, 所述方法还 包括: 将所述原文档和所述结构化文本进行比对; 校验所述结构化文本和所述原文档中元 素的内容信息是否一 致。 6.一种文本结构化装置, 其特 征在于, 包括: 第一获取 单元, 用于获取第一文本; 第一确定单元, 用于确定所述第 一文本中元素的位置; 所述元素包括文本标题、 文本段 落、 文本图片和文本表格; 提取单元, 用于根据所述元 素的位置, 提取 所述第一文本中元 素的内容信息; 结构化单元, 根据提取的所述第一文本中元素的内容信息, 对所述第一文本进行结构 化处理, 获得结构化文本 。 7.根据权利要求6中所述的装置, 其特 征在于, 所述 提取单元, 具体用于: 根据文本标题位置和文本段落位置, 对所述文本标题和所述文本段落进行名称识别、 关系提取和事件提取, 获得所述文本标题和所述文本段落的内容信息; 所述名称识别用于 提取所述文本标题和所述文本段落中的目标名称所述关系提取用于所述文本标题和所述 文本段落中目标名称之 间的关系, 所述事件提取用于提取所述文本标题和所述文本段落中权 利 要 求 书 1/2 页 2 CN 115171140 A 2描述的事 件; 根据文本表格位置, 对所述文本表格进行识别, 提取 所述文本表格中的数据内容信息; 根据文本图片的位置, 提取 所述文本图片的文字内容信息 。 8.根据权利要求6中所述的装置, 第一确定单 元, 具体用于: 识别所述第一文本中的元 素; 基于预设的神经网络模型, 确定所述第一文本中识别后的元 素的位置 。 9.根据权利要求8中所述的装置, 其特 征在于, 所述装置还 包括: 第二获取 单元, 用于获取原文档; 第三获取单元, 用于利用光学字符识别OCR算法, 对所述原文档进行识别, 获取第一文 本。 10.根据权利要求9中所述装置, 其特 征在于, 所述装置还 包括: 比对单元, 用于将所述原文档和所述结构化文本进行比对; 校验单元, 用于校验所述结构化文本和所述原文档中元 素的内容信息是否一 致。权 利 要 求 书 2/2 页 3 CN 115171140 A 3
专利 一种文本结构化方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 06:19:02
上传分享
举报
下载
原文档
(444.5 KB)
分享
友情链接
DB-T 64-2016 强震动观测技术规程.pdf
DB3708-T 10-2022 公共机构节能监管平台建设指南 济宁市.pdf
GB-T 21697-2022 低压配电线路和电子系统中雷电过电压的绝缘配合.pdf
中国移动 运营商数据安全白皮书 2020.pdf
GB-T 36968-2018 信息安全技术 IPSec VPN技术规范.pdf
GB-T 15166.2-2023 高压交流熔断器 第2部分:限流熔断器.pdf
GB-T 25346-2020 船舶供受燃油规程.pdf
法律法规 贵州省大数据安全保障条例2019-08-01.pdf
法律法规 辽宁省科技创新条例2021-07-28.pdf
GB-T 41680-2022 起重机 抗震设计通则.pdf
GB-T 37093-2018 信息安全技术 物联网感知层接入通信网的安全要求.pdf
GB-T 39965-2021 节能量前评估计算方法.pdf
GB-T 33008.1-2016 工业自动化和控制系统网络安全 可编程序控制器 PLC 第1部分:系统要求.pdf
GB-T 30290.3-2013 卫星定位车辆信息服务系统 第3部分:信息安全规范.pdf
GB-T 10647-2008 饲料工业术语.pdf
NB-T 10419-2020 空气源热泵烤烟房.pdf
DB43-T 2746-2023 特种设备使用单位安全风险评估和管控导则 湖南省.pdf
齐齐哈尔市民用建筑节能管理办法.pdf
GB-T 42708-2023 金融网络安全威胁信息共享指南.pdf
腾讯安全 政务大数据平台数据安全体系建设指南V1.0.pdf
1
/
3
13
评价文档
赞助3元 点击下载(444.5 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。