(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211200871.9
(22)申请日 2022.09.29
(71)申请人 北京明略昭辉科技有限公司
地址 100082 北京市海淀区北三环西路25
号27号楼二层2020室
(72)发明人 董世鹏 吴明辉 李采彧 李莹莹
(74)专利代理 机构 北京超成律师事务所 1 1646
专利代理师 王晓菲
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
(54)发明名称
一种文本识别方法、 装置及设备
(57)摘要
本申请提供了一种文本识别方法、 装置及设
备, 其中, 该方法包括: 从目标文本中提取多个子
句; 针对每个子句执行以下步骤: 基于预设的因
果关系触发词, 确定针对该子句的句子拆分策
略, 按照所确定的句子拆分策略对 该子句进行划
分, 获得至少一个短句; 针对每个短句执行以下
步骤: 利用目标语句关系识别模型, 确定该短句
的因果关系属性, 基于该短句在目标文本中的文
本位置, 确定出与该短句对应的关联句集合, 关
联句集合中包括多个关联短句, 分别确定该短句
与各关联短句的构造关系; 根据每个 短句的因果
关系属性 以及各短句与对应关联短句之间的构
造关系, 形成目标文本的因果关系链。 达到准确、
快速地对 文本中的因果关系进行识别的效果。
权利要求书2页 说明书8页 附图2页
CN 115510871 A
2022.12.23
CN 115510871 A
1.一种文本识别方法, 其特 征在于, 所述方法包括:
从目标文本中提取多个子句;
针对每个子句执行以下步骤: 基于预设的因果关系触发词, 确定针对该子句的句子拆
分策略, 按照所确定的句子拆分策略对该子句进行划分, 获得至少一个短句;
针对每个短句执行以下步骤: 利用目标语句关系识别模型, 确定该短句的因果关系属
性, 基于该短句在所述目标文本中的文本位置, 确定出与该短句对应的关联句集合, 所述关
联句集合中包括多个关联短句, 分别确定该短句与各关联短句的构造关系;
根据每个短句的因果关系属性以及各短句与对应关联短句之间的构造关系, 形成所述
目标文本的因果关系链。
2.根据权利要求1所述的方法, 其特征在于, 通过以下方式确定针对每个子句的句子拆
分策略:
判断该子句中是否存在因果关系触发词;
若存在, 则根据所述因果关系触发词在该子句中所处的位置, 对该子句进行拆分;
若不存在, 则基于句子成分 分析算法, 对该子句进行拆分。
3.根据权利要求2所述的方法, 其特 征在于, 通过以下 方式对每 个子句进行拆分:
确定所述因果关系触发词在子句中所处的位置;
若所述因果关系触发词位于子句的首位, 则将子句中位于所述因果关系触发词之后的
词语确定为 一短句;
若所述因果关系触发词位于子句的末位, 则将子句中位于所述因果关系触发词之前的
词语确定为 一短句;
若所述因果关系触发词位于子句的中部, 则将子句中位于所述因果关系触发词之前的
词语确定为 一短句, 将子句中位于所述因果关系触发词之后的词语确定为另一短句。
4.根据权利要求1所述的方法, 其特征在于, 通过以下方式确定与每个短句对应的目标
语句关系识别模型:
提取该短句的关联 标识, 所述关联 标识用于指示该短句的形成方式;
若所述关联标识指示该短句的形成方式为从所在子句中划分出的唯一短句, 则将单语
句关系识别模型确定为目标语句关系识别模型;
若所述关联标识指示该短句的形成方式为从所在子句中划分出的两个短句之一, 则将
句子对关系识别模型确定为目标语句关系识别模型。
5.根据权利要求4所述的方法, 其特征在于, 通过以下方式确定每个短句的因果关系属
性:
若所述关联标识指示该短句的形成方式为从所在子句中划分出的唯一短句, 则将该短
句输入单语句关系识别模型, 以获得 该短句的因果关系属性;
若所述关联标识指示该短句的形成方式为从所在子句中划分出的两个短句之一, 则将
该短句与从所在子句中划分出的另一短句形成句子对, 将所述句子对输入句子对关系识别
模型, 以获得 该短句的因果关系属性;
其中, 所述因果关系属性用于指示短句属于原因短句还是 结果短句。
6.根据权利要求1所述的方法, 其特征在于, 通过以下方式确定与每个短句对应的关联
句集合:权 利 要 求 书 1/2 页
2
CN 115510871 A
2提取位于短句之前的第 一预设数量的多个关联短句, 以及位于短句之后的第 二预设数
量的多个关联短句;
针对每个关联短句, 将该关联短句与短句形成短句关系检测 组, 每个短句关系检测 组
包括短句和所对应的一个关联短句;
其中, 通过以下步骤确定每 个短句与各关联短句的构造关系:
将短句关系检测组输入所述目标语句关系识别模型, 以获得该短句关系检测组中的两
个短句之 间的构造关系, 所述构 造关系包括因果构 造关系、 果因构 造关系、 并列构造 关系和
无构造关系。
7.根据权利要求6所述的方法, 其特征在于, 根据每个短句的因果关系属性以及各短句
与对应关联短句之间的构造关系, 形成所述目标文本的因果关系链的步骤 包括:
根据存在并列构造关系的短句关系检测组, 确定多个并列关系集合, 其中, 不同并列关
系集合之 间的短句不重复, 每个并列关系集合中的各短句关系检测组之间存在至少一个重
复的短句;
针对每个并列关系集合, 删除该并列关系集合中的重复短句, 并对各短句之间的并列
构造关系进行合并, 以形成合并 并列集合;
根据每个短句的因果关系属性、 各短句与对应关联短句之间的因果构造关系、 果因构
造关系和多个合并 并列集合, 确定所述目标文本中的各短句之间的因果构造关系;
根据所述目标文本中的各短句之间的因果构造关系, 形成所述目标文本的因果关系
链。
8.根据权利要求1所述的方法, 其特 征在于, 从目标文本中提取多个子句的步骤 包括:
根据目标文本中的预设标点符号对目标文本进行划分, 得到多个候选子句, 所述预设
标点符号 为用于句子切分的标点符号;
针对每个候选子句, 基于该候选子句的文本长度和/或子句作用, 对该候选子句进行内
容清洗, 获得子句。
9.一种文本识别装置, 其特 征在于, 所述装置包括:
子句提取模块, 用于从目标文本中提取多个子句;
子句拆分模块, 用于针对每个子句执行以下步骤: 基于预设的因果关系触发词, 确定针
对该子句的句 子拆分策略, 按照所确定的句 子拆分策略对该子句进行划分, 获得至少一个
短句;
构造关系确定模块, 用于针对每个短句执行以下步骤: 利用目标语句关系识别模型, 确
定该短句的因果关系属 性, 基于该短句在所述 目标文本中的文本位置, 确定出与该短句对
应的关联句集合, 所述关联句集合中包括多个关联短句, 分别确定该短句与各关联短句的
构造关系;
关系链形成模块, 用于根据每个短句的因果关系属性以及各短句与对应关联短句之间
的构造关系, 形成所述目标文本的因果关系链。
10.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述
处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总
线通信, 所述处 理器执行所述机器可读指令, 以执 行如权利要求1至8任一所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115510871 A
3
专利 一种文本识别方法、装置及设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:42上传分享