专利 一种文本识别方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211200871.9 (22)申请日 2022.09.29 (71)申请人北京明略昭辉科技有限公司地址 100082 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人董世鹏　吴明辉　李采彧　李莹莹　 (74)专利代理机构北京超成律师事务所 1 1646 专利代理师王晓菲 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称一种文本识别方法、装置及设备 (57)摘要本申请提供了一种文本识别方法、装置及设备，其中，该方法包括：从目标文本中提取多个子句；针对每个子句执行以下步骤：基于预设的因果关系触发词，确定针对该子句的句子拆分策略，按照所确定的句子拆分策略对该子句进行划分，获得至少一个短句；针对每个短句执行以下步骤：利用目标语句关系识别模型，确定该短句的因果关系属性，基于该短句在目标文本中的文本位置，确定出与该短句对应的关联句集合，关联句集合中包括多个关联短句，分别确定该短句与各关联短句的构造关系；根据每个短句的因果关系属性以及各短句与对应关联短句之间的构造关系，形成目标文本的因果关系链。达到准确、快速地对文本中的因果关系进行识别的效果。权利要求书2页说明书8页附图2页 CN 115510871 A 2022.12.23 CN 115510871 A 1.一种文本识别方法，其特征在于，所述方法包括：从目标文本中提取多个子句；针对每个子句执行以下步骤：基于预设的因果关系触发词，确定针对该子句的句子拆分策略，按照所确定的句子拆分策略对该子句进行划分，获得至少一个短句；针对每个短句执行以下步骤：利用目标语句关系识别模型，确定该短句的因果关系属性，基于该短句在所述目标文本中的文本位置，确定出与该短句对应的关联句集合，所述关联句集合中包括多个关联短句，分别确定该短句与各关联短句的构造关系；根据每个短句的因果关系属性以及各短句与对应关联短句之间的构造关系，形成所述目标文本的因果关系链。 2.根据权利要求1所述的方法，其特征在于，通过以下方式确定针对每个子句的句子拆分策略：判断该子句中是否存在因果关系触发词；若存在，则根据所述因果关系触发词在该子句中所处的位置，对该子句进行拆分；若不存在，则基于句子成分分析算法，对该子句进行拆分。 3.根据权利要求2所述的方法，其特征在于，通过以下方式对每个子句进行拆分：确定所述因果关系触发词在子句中所处的位置；若所述因果关系触发词位于子句的首位，则将子句中位于所述因果关系触发词之后的词语确定为一短句；若所述因果关系触发词位于子句的末位，则将子句中位于所述因果关系触发词之前的词语确定为一短句；若所述因果关系触发词位于子句的中部，则将子句中位于所述因果关系触发词之前的词语确定为一短句，将子句中位于所述因果关系触发词之后的词语确定为另一短句。 4.根据权利要求1所述的方法，其特征在于，通过以下方式确定与每个短句对应的目标语句关系识别模型：提取该短句的关联标识，所述关联标识用于指示该短句的形成方式；若所述关联标识指示该短句的形成方式为从所在子句中划分出的唯一短句，则将单语句关系识别模型确定为目标语句关系识别模型；若所述关联标识指示该短句的形成方式为从所在子句中划分出的两个短句之一，则将句子对关系识别模型确定为目标语句关系识别模型。 5.根据权利要求4所述的方法，其特征在于，通过以下方式确定每个短句的因果关系属性：若所述关联标识指示该短句的形成方式为从所在子句中划分出的唯一短句，则将该短句输入单语句关系识别模型，以获得该短句的因果关系属性；若所述关联标识指示该短句的形成方式为从所在子句中划分出的两个短句之一，则将该短句与从所在子句中划分出的另一短句形成句子对，将所述句子对输入句子对关系识别模型，以获得该短句的因果关系属性；其中，所述因果关系属性用于指示短句属于原因短句还是结果短句。 6.根据权利要求1所述的方法，其特征在于，通过以下方式确定与每个短句对应的关联句集合：权　利　要　求　书 1/2 页 2 CN 115510871 A 2提取位于短句之前的第一预设数量的多个关联短句，以及位于短句之后的第二预设数量的多个关联短句；针对每个关联短句，将该关联短句与短句形成短句关系检测组，每个短句关系检测组包括短句和所对应的一个关联短句；其中，通过以下步骤确定每个短句与各关联短句的构造关系：将短句关系检测组输入所述目标语句关系识别模型，以获得该短句关系检测组中的两个短句之间的构造关系，所述构造关系包括因果构造关系、果因构造关系、并列构造关系和无构造关系。 7.根据权利要求6所述的方法，其特征在于，根据每个短句的因果关系属性以及各短句与对应关联短句之间的构造关系，形成所述目标文本的因果关系链的步骤包括：根据存在并列构造关系的短句关系检测组，确定多个并列关系集合，其中，不同并列关系集合之间的短句不重复，每个并列关系集合中的各短句关系检测组之间存在至少一个重复的短句；针对每个并列关系集合，删除该并列关系集合中的重复短句，并对各短句之间的并列构造关系进行合并，以形成合并并列集合；根据每个短句的因果关系属性、各短句与对应关联短句之间的因果构造关系、果因构造关系和多个合并并列集合，确定所述目标文本中的各短句之间的因果构造关系；根据所述目标文本中的各短句之间的因果构造关系，形成所述目标文本的因果关系链。 8.根据权利要求1所述的方法，其特征在于，从目标文本中提取多个子句的步骤包括：根据目标文本中的预设标点符号对目标文本进行划分，得到多个候选子句，所述预设标点符号为用于句子切分的标点符号；针对每个候选子句，基于该候选子句的文本长度和/或子句作用，对该候选子句进行内容清洗，获得子句。 9.一种文本识别装置，其特征在于，所述装置包括：子句提取模块，用于从目标文本中提取多个子句；子句拆分模块，用于针对每个子句执行以下步骤：基于预设的因果关系触发词，确定针对该子句的句子拆分策略，按照所确定的句子拆分策略对该子句进行划分，获得至少一个短句；构造关系确定模块，用于针对每个短句执行以下步骤：利用目标语句关系识别模型，确定该短句的因果关系属性，基于该短句在所述目标文本中的文本位置，确定出与该短句对应的关联句集合，所述关联句集合中包括多个关联短句，分别确定该短句与各关联短句的构造关系；关系链形成模块，用于根据每个短句的因果关系属性以及各短句与对应关联短句之间的构造关系，形成所述目标文本的因果关系链。 10.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至8任一所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115510871 A 3

专利 一种文本识别方法、装置及设备

专利一种文本识别方法、装置及设备