iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211079032.6 (22)申请日 2022.09.05 (71)申请人 上海美嘉林软件科技股份有限公司 地址 200233 上海市徐汇区桂平路481号16 幢215室 (72)发明人 金勇华  (74)专利代理 机构 上海点威知识产权代理有限 公司 31326 专利代理师 胡志强 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 9/445(2018.01) G06F 40/186(2020.01) G06F 40/151(2020.01)G06F 40/14(2020.01) G06F 40/30(2020.01) (54)发明名称 一种自动识别文档语义的方法、 装置和电子 设备 (57)摘要 本发明涉及结构化文档技术领域, 具体涉及 一种自动识别文档语义的方法、 装置和电子设 备, 包括: 获取配置好的文档类型定义, 根据所述 文档类型定义确定文档转换逻辑; 基于所述文档 类型定义、 所述文档转换逻辑展示相对应的编辑 模板; 响应用户对所述编辑模板的编辑操作, 当 保存编辑操作后的所述编辑模板时, 自动识别所 述编辑模板中的内容, 将识别的所述编辑模板中 的内容转化为结构化文档。 本发 明结合传统文档 编辑器的操作功能, 实现结构化文档的编辑, 操 作容易上手, 看起来是所见即所得的效果, 这样 既能够使用结构化文档带来的文档管理便利, 又 能够降低编写难度, 便于结构化文档在企业中更 容易推广。 权利要求书2页 说明书9页 附图5页 CN 115309851 A 2022.11.08 CN 115309851 A 1.一种自动识别文档语义的方法, 其特 征在于, 包括: 获取配置好的文档类型定义, 根据所述文档类型定义确定文档转换逻辑; 基于所述文档类型定义、 所述文档转换逻辑展示相对应的编辑模板; 响应用户对所述编辑模板的编辑操作, 当保存编辑操作后的所述编辑模板时, 自动识 别所述编辑模板中的内容, 将识别的所述编辑模板中的内容 转化为结构化文档。 2.如权利要求1所述的一种自动识别文档语义的方法, 其特征在于, 所述获取配置好的 文档类型定义, 包括: 根据用户所需文档类型定义的类型配置根节点、 模板、 资源标签, 得到配置好的文档类 型定义。 3.如权利要求1所述的一种自动识别文档语义的方法, 其特征在于, 所述根据 所述文档 类型定义确定文档转换逻辑, 包括: 根据所述文档类型定义确定相应的识别标签; 对所述识别标签进行分类, 基于分类结果确定相应文档转换逻辑。 4.如权利要求1所述的一种自动识别文档语义的方法, 其特征在于, 所述将识别的所述 编辑模板中的内容 转化为结构化文档, 包括: 加载默认的转 化插件及配置文件中的多个 配置插件, 按照预设顺序结构对所述配置文件中的多个配置插件与所述编辑模板中的内容进行 数据匹配, 当数据匹配成功 时, 根据所述转化插件对每一个配置插件所对应的内容进行格 式转化; 根据每一个配置插件所属类型对格式转化后的所述每一个配置插件所对应的内容进 行组装, 得到结构化文档。 5.如权利要求1所述的一种自动识别文档语义的方法, 其特征在于, 所述编 辑模板支持 自主定制及扩展。 6.一种自动识别文档语义的转置, 其特 征在于, 包括: 信息获取模块, 用于获取配置好的文档类型定义, 根据所述文档类型定义确定文档转 换逻辑; 模板展示模块, 用于基于所述文档类型定义、 所述文档转换逻辑展示相对应的编辑模 板; 文档转化模块, 用于响应用户对所述编辑模板的编辑操作, 当保存编辑操作后的所述 编辑模板时, 自动识别所述编辑模板中的内容, 将识别的所述编辑模板中的内容转化为结 构化文档。 7.如权利要求6所述的一种自动识别文档语义的装置, 其特征在于, 所述信 息获取模块 包括: 配置单元, 用于根据用户所需文档类型定义的类型配置根节点、 模板、 资源标签, 得到 配置好的文档类型定义。 8.如权利要求6所述的一种自动识别文档语义的装置, 其特征在于, 所述文档转化模块 包括: 插件加载单元, 用于加载默认的转 化插件及配置文件中的多个 配置插件, 插件匹配单元, 用于按照预设顺序 结构对所述配置文件中的多个配置插件与 所述编辑权 利 要 求 书 1/2 页 2 CN 115309851 A 2模板中的内容进行数据匹配, 当数据匹配成功 时, 根据所述转化插件对每一个配置插件所 对应的内容进行格式转 化; 内容组装单元, 用于根据每一个配置插件所属类型对格式转化后的所述每一个配置插 件所对应的内容进行组装, 得到结构化文档。 9.一种电子设备, 其中, 该电子设备包括: 处理器以及存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处理 器执行根据权利要求1 ‑5中任一项所述的方法。 10.一种计算机可读存储介质, 其中, 所述计算机可读存储介质存储一个或多个指令, 所述一个或多个执 行当被处 理器执行时, 实现权利要求1 ‑5中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115309851 A 3

PDF文档 专利 一种自动识别文档语义的方法、装置和电子设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自动识别文档语义的方法、装置和电子设备 第 1 页 专利 一种自动识别文档语义的方法、装置和电子设备 第 2 页 专利 一种自动识别文档语义的方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。