专利 文本处理方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210890284.0 (22)申请日 2022.07.27 (71)申请人联想（北京）有限公司地址 100085 北京市海淀区上地西路6号2 幢2层201- H2-6 (72)发明人赵国光　李飞　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 专利代理师韩园园　张颖玲 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/126(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称文本处理方法及装置 (57)摘要本申请实施例提供一种文本处理方法及装置，所述方法包括：获得待处理文本，所述待处理文本包括至少两个语句；对所述待处理文本中的每一语句进行语义编码处理，得到每一所述语句对应的语句编码向量；根据每一所述语句在所述待处理文本中的顺序，对所述至少两个语句编码向量进行排序处理，得到待处理序列；根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，以确定每一所述语句编码向量对应语句的完整性。权利要求书3页说明书16页附图4页 CN 115169323 A 2022.10.11 CN 115169323 A 1.一种文本处理方法，所述方法包括：获得待处理文本，所述待处理文本包括至少两个语句；对所述待处理文本中的每一语句进行语义编码处理，得到每一所述语句对应的语句编码向量；根据每一所述语句在所述待处理文本中的顺序，对所述至少两个语句编码向量进行排序处理，得到待处理序列；根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，以确定每一所述语句编码向量对应语句的完整性。 2.根据权利要求1所述的方法，所述方法还包括：根据所述语句类型对所述待处理序列进行标注，得到所述待处理文本对应的语句类型标注序列。 3.根据权利要求1所述的方法，所述根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，包括：根据每一所述语句编码向量在所述待处理序列中的位置信息，确定每一所述语句编码向量的相邻语句编码向量；对每一所述语句编码向量和所述相邻语句编码向量进行特征提取，得到每一所述语句编码向量对应的上下文语境信息；根据每一所述语句编码向量对应的上下文语境信息，对每一所述语句编码向量进行分类处理，得到每一所述语句编码向量对应的所述语句类型。 4.根据权利要求1所述的方法，所述根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列中的语句编码向量进行语义分析处理，得到每一所述语句编码向量对应的语句类型，包括：根据每一所述语句编码向量在所述待处理序列中的位置信息，对所述待处理序列进行双向特征提取，得到正向特征向量和反向特征向量；对所述正向特征向量和所述反向特征向量进行特征拼接，得到序列特征向量；对所述序列特征向量进行分类处理，得到分类矩阵；对所述分类矩阵进行归一化处理，得到所述待处理文本中每一语句对应的语句类型。 5.根据权利要求1所述的方法，所述方法还包括：获得整句集合和断句集合；所述整句集合中包括至少一个整句，所述断句集合中包括至少一个断句；分别确定出每一所述语句对应的语句编码向量与所述整句集合中的每一整句之间的第一距离、和每一所述语句对应的语句编码向量与所述断句集合中的每一断句之间的第二距离；基于所述第一距离，确定每一所述语句与所述整句集合之间的第一相似度；基于所述第二距离，确定每一所述语句与所述断句集合之间的第二相似度；根据每一所述语句对应的所述第一相似度和所述第二相似度，确定每一所述语句的语句类型；权　利　要　求　书 1/3 页 2 CN 115169323 A 2根据每一所述语句和每一所述语句对应的语句类型，创建语句类型标注样本。 6.根据权利要求5所述的方法，所述根据每一所述语句对应的所述第一相似度和所述第二相似度，确定每一所述语句的语句类型，至少包括以下一种：当语句的所述第一相似度大于第一相似度阈值时，确定出所述语句的语句类型为整句类型；当语句的所述第二相似度大于第二相似度阈值时，确定出所述语句的语句类型为断句类型；当语句的所述第一相似度大于所述第二相似度时，确定出所述语句的语句类型为整句类型；当语句的所述第二相似度大于所述第一相似度时，确定出所述语句的语句类型为断句类型。 7.根据权利要求5所述的方法，所述方法还包括：根据所述待处理文本中的每一语句对应的语句类型，对所述语句类型标注样本进行更新，得到更新后的语句类型标注样本；将所述更新后的语句类型标注样本，确定为标注模型的样本数据集。 8.根据权利要求5所述的方法，所述方法还包括：获得历史对话；确定所述历史对话中每一语句对应的目标对象；当任一语句对应的目标对象为第一类型对象时，将所述语句确定为整句；根据所述历史对话中的全部整句，创建所述整句集合；当任一语句对应的目标对象为第二类型对象时，对所述语句进行句法分析，得到分析结果；当所述分析结果表明所述语句的语句类型为断句类型时，将所述语句确定为断句；根据所述历史对话中的全部断句，创建所述断句集合。 9.根据权利要求2所述的方法，所述方法通过标注模型实现，所述标注模型至少包括语义编码模块、排序模块、语义分析模块和标注模块；所述标注模型通过以下步骤训练得到：将样本数据集输入至所述标注模型中，所述样本数据集包括至少两个样本语句；通过所述语义编码模块，对所述样本数据集中的每一样本语句进行语义编码处理，得到每一所述样本语句对应的样本语句编码向量；通过所述排序模块，根据每一所述样本语句在所述样本数据集中的顺序，对所述至少两个样本语句编码向量进行排序处理，得到样本待处理序列；通过所述语义分析模块，根据每一所述样本语句编码向量在所述样本待处理序列中的位置信息，对所述样本待处理序列中的样本语句编码向量进行语义分析处理，得到每一所述样本语句编码向量对应的样本语句类型；通过所述标注模块，根据所述样本语句类型对所述样本待处理序列进行标注，得到所述样本待处理文本对应的样本语句类型标注序列；将所述样本语句类型标注序列输入至预设损失模型中，得到损失结果；根据所述损失结果，对所述语义编码模块、所述排序模块、所述语义分析模块和所述标注模块中的参数进行修正，以得到训练后的标注模型。权　利　要　求　书 2/3 页 3 CN 115169323 A 3

专利 文本处理方法及装置

专利文本处理方法及装置