iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211098465.6 (22)申请日 2022.09.09 (65)同一申请的已公布的文献号 申请公布号 CN 115204182 A (43)申请公布日 2022.10.18 (73)专利权人 山东天成书业有限公司 地址 272600 山东省济宁市梁山经济开发 区智星路1号 (72)发明人 雷燕芳 秦余伟 冯兴旺  (74)专利代理 机构 济宁汇景知识产权代理事务 所(普通合伙) 37254 专利代理师 苟莎 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06F 16/33(2019.01)(56)对比文件 CN 111985233 A,2020.1 1.24 CN 114881007 A,202 2.08.09 CN 114943285 A,202 2.08.26 CN 114519345 A,202 2.05.20 CN 114494679 A,202 2.05.13 WO 2022105083 A1,202 2.05.27 US 2007083359 A1,20 07.04.12 US 7383172 B1,20 08.06.03 任柏青.基 于深度学习的智能中文 文本检校 方法. 《现代电信科技》 .2017,(第04期),59- 62. 杨凡等.基 于知识图谱的自然语言中歧义字 段切分系统设计. 《现代电子技 术》 .2020,(第01 期),52-55、 60. 郑逢斌等.特定领域中语义校对系统的开 发. 《西南交通大 学学报》 .20 03,(第02期),231- 234. 审查员 王茜 (54)发明名称 一种待校对电子书数据的识别方法及系统 (57)摘要 本发明涉及语 言校正技术领域, 尤其涉及一 种待校对电子书数据的识别方法及系统, 包括: 步骤S1, 获取模块获取待校对电子书的样稿, 同 时根据待校对电子书的样稿信息对存储于储存 模块的原稿进行调取, 并将样稿与原稿输送至数 据识别模块以生成数据识别任务; 步骤S2, 进行 段落数据识别; 步骤S3, 进行语言数据识别; 步骤 S4, 进行语义数据识别, 本发明通过分步数据识 别, 并在每一步数据识别后提交审核模块进行人 工审核, 本发明把数据识别工作分步进行, 在系 统数据识别完成后提交至人工审核, 减少了工作 人员的数据识别工作, 提高了数据识别效率, 同 时, 对于样稿中系统无法判定的地方进行人工确 认, 增加了数据识别的准确率。 权利要求书4页 说明书10页 附图1页 CN 115204182 B 2022.11.25 CN 115204182 B 1.一种待校对电子书数据的识别方法, 其特 征在于, 包括: 步骤S1, 获取模块获取待校对电子书的样稿, 同时根据待校对电子书的样稿信息对存 储于储存模块的原稿进行调取, 并将样稿与原稿输送至数据识别模块以生成数据识别任 务; 步骤S2, 所述数据识别模块对样稿与原稿进行段落数据识别, 数据识别模块将数据识 别结果形成段落数据识别意见, 并提交至审核模块进行 人工审核; 在所述步骤S2中, 所述数据识别模块对样稿与原稿进行段落数据识别, 中控模块计算 样稿中的任一段落中的内容与原稿中各段落内容的相似度X并根据X对段落数据识别意见 做出判定; 步骤S3, 在完成对所述段落数据识别意见的人工审核后, 进行语言数据识别, 数据识别 模块将数据识别结果形成语言数据识别意见, 并提交至审核模块进行 人工审核; 在所述步骤S3中, 所述语言数据识别包括语法错误数据识别、 不规范用词数据识别、 常 见错误数据 识别以及标点符号错误数据识别, 所述常见错误包括重复字、 颠倒字和错别字; 在针对不规范用词的数据识别时, 所述数据识别模块根据不规范用词进 行词义关联搜索以 搜索出关联词, 统计不规范用词的任一关联词在与不规范用词所在的语句相同语境的语言 应用模型中的数量Qi, 所述中控模块选取Qi中的最高值Qmax对应的词语作为建议修改词, 所述中控模块根据语义分析结果计算建议修改词与语义的匹配度A并根据A判定建议修改 词是否符合语义, 在判定建议修改词不符合语义时列出备选词语并计算备选词语与语义的 匹配度, 中控 模块根据备选词语的匹配度和数量对备选词语进行确定; 步骤S4, 在完成对所述语言数据识别意见的人工审核后, 进行语义数据识别, 所述数据 识别模块将数据识别结果形成语义数据识别意见, 并提交至审核模块进行 人工审核; 在所述步骤S4中, 所述数据识别模块对语义进行数据识别时, 数据识别模块通过语义 分析提取语义存在歧义的语句, 将上述语句按照自然语言的使用习惯进行语句结构的划 分, 提取导致语义存在歧义的词语进行数据识别并修正, 所述数据识别模块根据存在歧义 的词语进 行词义关联搜索, 对搜索出的关联词计算在相似语义中的应用的应用频率并根据 应用频率判定是否将搜索出的关联词作为 替换词进行保留。 2.根据权利要求1所述的待校对电子书数据的识别方法, 其特征在于, 在所述步骤S2 中, 所述数据识别模块对样稿与原稿进行段落数据识别时, 数据识别模块对原稿的段落按 顺序进行编码, 同时, 数据识别模块对样稿的段落按顺序进 行编码, 在完成对原稿的段落的 编码后, 数据识别模块按顺序选取样稿中的段落与 原稿进行比对, 对于样稿中的任一段落, 数据识别模块根据样稿中的任一段落中的内容在原稿中进行提取, 在原稿中提取该段落 时, 中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并取其中的 最大值Xmax, 中控 模块将Xmax与预设相似度X0进行比对, 当Xmax≤X0时, 所述中控模块判定原稿中不存在与样稿中选取的段落相对应的段落, 所述数据识别模块将 样稿中选取的段落标注为 新增段落; 当Xmax>X0时, 所述中控模块判定原稿中相似度Xmax对应的段落为样稿中选取的段 落, 中控模块进一步判断原稿中相似度Xmax对应的段落的段落编码与样稿中选取的段落的 段落编码是否对应, 若不对应, 所述数据识别模块则在样稿中标注为段落 顺序调整; 所述数据识别模块完成样稿中的任一段与原稿的比对时, 若原稿中存在未被提取比对权 利 要 求 书 1/4 页 2 CN 115204182 B 2过的段落, 所述数据识别模块则将该 未被提取比对过的段落在原稿中标注为删除段落; 所述数据识别模块将样稿与原稿比对, 标注出样稿中的新增段落和段落顺序调整, 同 时标注出原稿中的删除段落, 数据识别模块将在样稿与 原稿中的段落标注形成段落数据识 别意见, 并将段落数据识别意见传输 至所述审核模块进行 人工审核。 3.根据权利要求1所述的待校对电子书数据的识别方法, 其特征在于, 在所述步骤S3 中, 在针对不规范用词数据识别时, 所述数据识别模块采用逐句识别的方式进 行数据识别, 数据识别模块应用自然语言处理技术进行语义分析, 根据语义分析识别不规范用词并给出 建议修改词, 所述中控模块根据语义分析结果计算建议修改词 与语义的匹配度A, 中控模块 将计算的匹配度A与预设匹配度A0进行比对, 当A≥A0时, 所述中控模块判定建议修改词符合语义, 所述数据识别模块自动进行修 改; 当A<A0时, 所述中控模块判定建议修改词不符合语义, 所述数据识别模块对该处不规 范用词进行 标注, 同时列出 备选词语; 所述中控模块将不规范用词所在的语句 称作目标语句; 所述数据识别模块在给出建议 修改词时, 首先根据不规范用 词进行词义关联搜索以搜索出关联词, 所述中控模块提取目 标语句中的主谓宾结构, 将提取的主谓宾结构在数据库模块中进 行搜索以获取语言应用模 型, 数据识别模块对搜索出 的语言应用模型进行语境分析以进行语境分类, 数据识别模块 将目标语句的语境分类与搜索出的语言应用模型的语境分类进行匹配并筛选出与目标语 句相同语境的语言应用模型, 统计匹配结果数量Q, 在 匹配结果数量Q中统计不规范用词的 任一关联词的数量Qi, 中控模块选取Qi中的最高值Qmax对应的词语作为建议修改词, 并计 算该建议修改词 与语义的匹配度 A, 设定A=Qmax/Q; 对于不规范用词的任一关联词的匹配度 Ai, 设定Ai=Q i/Q。 4.根据权利要求3所述的待校对电子书数据的识别方法, 其特征在于, 在所述数据识别 模块确定备选词语时, 所述中控模块计算不规范用词的任一关联词的匹配度A i与预设匹配 度A0的差值ΔA, 设定 ΔA=A0‑Ai, 中控模块将ΔA与预设标准差值ΔAb进行比对, 当ΔA≥ΔAb时, 所述中控 模块判定该关联词不可作为备选词语; 当ΔA<ΔAb时, 所述中控 模块判定该关联词可作为备选词语。 5.根据权利要求4所述的待校对电子书数据的识别方法, 其特征在于, 所述中控模块统 计可作为备选词语的数量 N, 中控模块将N与预设数量 N0进行对比, 当N≥N0时, 所述中控模块将每一个可作为备选词语的匹配度进行降序排列, 选取匹配 度排序在前的N0个词语作为备选词语; 当N<N0时, 所述中控 模块将备选词语数量设置为 N; 当所述中控模块完成对备选词语的确定时, 所述数据识别模块形成语言数据识别意 见, 并传输 至所述审核模块进行 人工审核。 6.根据权利要求1所述的待校对电子书

PDF文档 专利 一种待校对电子书数据的识别方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种待校对电子书数据的识别方法及系统 第 1 页 专利 一种待校对电子书数据的识别方法及系统 第 2 页 专利 一种待校对电子书数据的识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。