专利 一种待校对电子书数据的识别方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211098465.6 (22)申请日 2022.09.09 (65)同一申请的已公布的文献号申请公布号 CN 115204182 A (43)申请公布日 2022.10.18 (73)专利权人山东天成书业有限公司地址 272600 山东省济宁市梁山经济开发区智星路1号 (72)发明人雷燕芳　秦余伟　冯兴旺　 (74)专利代理机构济宁汇景知识产权代理事务所(普通合伙) 37254 专利代理师苟莎 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06F 16/33(2019.01)(56)对比文件 CN 111985233 A,2020.1 1.24 CN 114881007 A,202 2.08.09 CN 114943285 A,202 2.08.26 CN 114519345 A,202 2.05.20 CN 114494679 A,202 2.05.13 WO 2022105083 A1,202 2.05.27 US 2007083359 A1,20 07.04.12 US 7383172 B1,20 08.06.03 任柏青.基于深度学习的智能中文文本检校方法. 《现代电信科技》 .2017,(第04期),59- 62. 杨凡等.基于知识图谱的自然语言中歧义字段切分系统设计. 《现代电子技术》 .2020,(第01 期),52-55、 60. 郑逢斌等.特定领域中语义校对系统的开发. 《西南交通大学学报》 .20 03,(第02期),231- 234. 审查员王茜 (54)发明名称一种待校对电子书数据的识别方法及系统 (57)摘要本发明涉及语言校正技术领域，尤其涉及一种待校对电子书数据的识别方法及系统，包括：步骤S1，获取模块获取待校对电子书的样稿，同时根据待校对电子书的样稿信息对存储于储存模块的原稿进行调取，并将样稿与原稿输送至数据识别模块以生成数据识别任务；步骤S2，进行段落数据识别；步骤S3，进行语言数据识别；步骤 S4，进行语义数据识别，本发明通过分步数据识别，并在每一步数据识别后提交审核模块进行人工审核，本发明把数据识别工作分步进行，在系统数据识别完成后提交至人工审核，减少了工作人员的数据识别工作，提高了数据识别效率，同时，对于样稿中系统无法判定的地方进行人工确认，增加了数据识别的准确率。权利要求书4页说明书10页附图1页 CN 115204182 B 2022.11.25 CN 115204182 B 1.一种待校对电子书数据的识别方法，其特征在于，包括：步骤S1，获取模块获取待校对电子书的样稿，同时根据待校对电子书的样稿信息对存储于储存模块的原稿进行调取，并将样稿与原稿输送至数据识别模块以生成数据识别任务；步骤S2，所述数据识别模块对样稿与原稿进行段落数据识别，数据识别模块将数据识别结果形成段落数据识别意见，并提交至审核模块进行人工审核；在所述步骤S2中，所述数据识别模块对样稿与原稿进行段落数据识别，中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并根据X对段落数据识别意见做出判定；步骤S3，在完成对所述段落数据识别意见的人工审核后，进行语言数据识别，数据识别模块将数据识别结果形成语言数据识别意见，并提交至审核模块进行人工审核；在所述步骤S3中，所述语言数据识别包括语法错误数据识别、不规范用词数据识别、常见错误数据识别以及标点符号错误数据识别，所述常见错误包括重复字、颠倒字和错别字；在针对不规范用词的数据识别时，所述数据识别模块根据不规范用词进行词义关联搜索以搜索出关联词，统计不规范用词的任一关联词在与不规范用词所在的语句相同语境的语言应用模型中的数量Qi，所述中控模块选取Qi中的最高值Qmax对应的词语作为建议修改词，所述中控模块根据语义分析结果计算建议修改词与语义的匹配度A并根据A判定建议修改词是否符合语义，在判定建议修改词不符合语义时列出备选词语并计算备选词语与语义的匹配度，中控模块根据备选词语的匹配度和数量对备选词语进行确定；步骤S4，在完成对所述语言数据识别意见的人工审核后，进行语义数据识别，所述数据识别模块将数据识别结果形成语义数据识别意见，并提交至审核模块进行人工审核；在所述步骤S4中，所述数据识别模块对语义进行数据识别时，数据识别模块通过语义分析提取语义存在歧义的语句，将上述语句按照自然语言的使用习惯进行语句结构的划分，提取导致语义存在歧义的词语进行数据识别并修正，所述数据识别模块根据存在歧义的词语进行词义关联搜索，对搜索出的关联词计算在相似语义中的应用的应用频率并根据应用频率判定是否将搜索出的关联词作为替换词进行保留。 2.根据权利要求1所述的待校对电子书数据的识别方法，其特征在于，在所述步骤S2 中，所述数据识别模块对样稿与原稿进行段落数据识别时，数据识别模块对原稿的段落按顺序进行编码，同时，数据识别模块对样稿的段落按顺序进行编码，在完成对原稿的段落的编码后，数据识别模块按顺序选取样稿中的段落与原稿进行比对，对于样稿中的任一段落，数据识别模块根据样稿中的任一段落中的内容在原稿中进行提取，在原稿中提取该段落时，中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并取其中的最大值Xmax，中控模块将Xmax与预设相似度X0进行比对，当Xmax≤X0时，所述中控模块判定原稿中不存在与样稿中选取的段落相对应的段落，所述数据识别模块将样稿中选取的段落标注为新增段落；当Xmax＞X0时，所述中控模块判定原稿中相似度Xmax对应的段落为样稿中选取的段落，中控模块进一步判断原稿中相似度Xmax对应的段落的段落编码与样稿中选取的段落的段落编码是否对应，若不对应，所述数据识别模块则在样稿中标注为段落顺序调整；所述数据识别模块完成样稿中的任一段与原稿的比对时，若原稿中存在未被提取比对权　利　要　求　书 1/4 页 2 CN 115204182 B 2过的段落，所述数据识别模块则将该未被提取比对过的段落在原稿中标注为删除段落；所述数据识别模块将样稿与原稿比对，标注出样稿中的新增段落和段落顺序调整，同时标注出原稿中的删除段落，数据识别模块将在样稿与原稿中的段落标注形成段落数据识别意见，并将段落数据识别意见传输至所述审核模块进行人工审核。 3.根据权利要求1所述的待校对电子书数据的识别方法，其特征在于，在所述步骤S3 中，在针对不规范用词数据识别时，所述数据识别模块采用逐句识别的方式进行数据识别，数据识别模块应用自然语言处理技术进行语义分析，根据语义分析识别不规范用词并给出建议修改词，所述中控模块根据语义分析结果计算建议修改词与语义的匹配度A，中控模块将计算的匹配度A与预设匹配度A0进行比对，当A≥A0时，所述中控模块判定建议修改词符合语义，所述数据识别模块自动进行修改；当A＜A0时，所述中控模块判定建议修改词不符合语义，所述数据识别模块对该处不规范用词进行标注，同时列出备选词语；所述中控模块将不规范用词所在的语句称作目标语句；所述数据识别模块在给出建议修改词时，首先根据不规范用词进行词义关联搜索以搜索出关联词，所述中控模块提取目标语句中的主谓宾结构，将提取的主谓宾结构在数据库模块中进行搜索以获取语言应用模型，数据识别模块对搜索出的语言应用模型进行语境分析以进行语境分类，数据识别模块将目标语句的语境分类与搜索出的语言应用模型的语境分类进行匹配并筛选出与目标语句相同语境的语言应用模型，统计匹配结果数量Q，在匹配结果数量Q中统计不规范用词的任一关联词的数量Qi，中控模块选取Qi中的最高值Qmax对应的词语作为建议修改词，并计算该建议修改词与语义的匹配度 A，设定A=Qmax/Q；对于不规范用词的任一关联词的匹配度 Ai，设定Ai=Q i/Q。 4.根据权利要求3所述的待校对电子书数据的识别方法，其特征在于，在所述数据识别模块确定备选词语时，所述中控模块计算不规范用词的任一关联词的匹配度A i与预设匹配度A0的差值ΔA，设定 ΔA=A0‑Ai，中控模块将ΔA与预设标准差值ΔAb进行比对，当ΔA≥ΔAb时，所述中控模块判定该关联词不可作为备选词语；当ΔA＜ΔAb时，所述中控模块判定该关联词可作为备选词语。 5.根据权利要求4所述的待校对电子书数据的识别方法，其特征在于，所述中控模块统计可作为备选词语的数量 N，中控模块将N与预设数量 N0进行对比，当N≥N0时，所述中控模块将每一个可作为备选词语的匹配度进行降序排列，选取匹配度排序在前的N0个词语作为备选词语；当N＜N0时，所述中控模块将备选词语数量设置为 N；当所述中控模块完成对备选词语的确定时，所述数据识别模块形成语言数据识别意见，并传输至所述审核模块进行人工审核。 6.根据权利要求1所述的待校对电子书

专利 一种待校对电子书数据的识别方法及系统

专利一种待校对电子书数据的识别方法及系统