专利 一种自然语言查询领域的依存分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211135453.6 (22)申请日 2022.09.19 (71)申请人数预智能科技（上海）有限公司地址 200120 上海市浦东新区自由贸易试验区郭守敬路498号8幢19号楼3层 (72)发明人范陈锦　 (51)Int.Cl. G06F 16/2452(2019.01) G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称一种自然语言查询领域的依存分析方法 (57)摘要本发明公开了一种自然语言查询领域的依存分析方法，针对中文自然语言查询问句解析准确性不高等问题，其包括如下步骤： S1、收集并整理自然语言查询数据集； S2、构建基于文法和语义的依存分析模型； S3、依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树； S4、对依存树进行剪枝； S5、依据语义解析要求调整依存树。该自然语言查询领域的依存分析方法基于规则和基于统计的理解方法结合,通过依存文法分析词语序列的依存关系,用以判断查询语言单位内各成分之间的依存关系,很好的提高了解析的准确性和完善性，与已有的通用依存方法相比，能够有效地提高自然语言转数据查询的准确性。权利要求书1页说明书3页附图1页 CN 115455039 A 2022.12.09 CN 115455039 A 1.一种自然语言查询领域的依存分析方法，其特征在于，包括如下步骤： S1、收集并整理自然语言查询数据集； S2、构建基于文法和语义的依存分析模型； S3、依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树； S4、对依存树进行剪枝； S5、依据语义解析要求调整依存树。 2.根据权利要求1所述的一种自然语言查询领域的依存分析方法，其特征在于，所述S1 中收集并整理自然语言查询数据集具体为：收集并整理自然语言查询问句的数据集，对于得到的问句数据集进行预处理。 3.根据权利要求2所述的一种自然语言查询领域的依存分析方法，其特征在于，对于得到的问句数据集进行预处理包括根据自然语言查询的特殊要求，对问句数据集先行进行分词和组词组，同时为词组标注词性和词义。 4.根据权利要求3所述的一种自然语言查询领域的依存分析方法，其特征在于，对于得到的问句数据集进行预处理还包括依据问句的查询语义，对问句进行分类归纳，以方便后续同一查询语义问句的统一处理。 5.根据权利要求4所述的一种自然语言查询领域的依存分析方法，其特征在于，所述S2 中构建基于文法和语义的依存分析模型具体为：对问句数据集中的问句分词和组词组后的结果进行特征表示，之后依据依存规则模版和基于统计的多种特征抽取方式，保存为文法和语义的依存分析模型。 6.根据权利要求5所述的一种自然语言查询领域的依存分析方法，其特征在于，词组的特征表示方式为将词组的文本、词序、词性、词义向量化后表征为一个统一向量；多种特征抽取包括但不限于词组的词性和词义特征、问句本身的文法特征、问法的语义特征、抽取匹配条件和转换条件。 7.根据权利要求6所述的一种自然语言查询领域的依存分析方法，其特征在于，所述S3 中依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树具体为：将问句分词和组词组后的结果按照在原问句中的顺序输入到文法和语义的依存分析模型，模型首先会对词组的文本、词序、词性和词义特征进行向量化编码，之后依存分析模型会依据词组的特征编码后的向量值进行模型匹配，模型匹配会得到可能的多个结果，对这多个结果进行打分排序比较，选择分数最高的结果作为最后的输出结果，以获取最优的语义依存结构树。 8.根据权利要求7所述的一种自然语言查询领域的依存分析方法，其特征在于，所述S4 中对依存树进行剪枝具体为：依存树上存在多个冗余的词节点，对于这些词节点予以剪枝。 9.根据权利要求8所述的一种自然语言查询领域的依存分析方法，其特征在于，依存树上存在的多个冗余的词节点包括但不限于一些无词义的助词、动词、代词节点、对查询语义解析没有帮助的节点和会对查询语义解析存在混淆的词节点。 10.根据权利要求9所述的一种自然语言查询领域的依存分析方法，其特征在于，所述 S5中依据语义解析要求调整依存树具体为：对依存树上的节点按照特定的语义解析标准调整父子节点上下位的位置，调整节点的左右子节点的位置，对上一步中剪枝后的后续节点的重新拼接。权　利　要　求　书 1/1 页 2 CN 115455039 A 2一种自然语言查询领域的依存分析方法技术领域 [0001]本发明涉及自然语言处理技术领域，具体为一种自然语言查询领域的依存分析方法。背景技术 [0002]随着现代科学技术的发展，计算机已经成为这个时代标志性的产物，人们越来越强烈地希望与计算机进行交流，而自然语言作为人与计算机进行交流的重要媒介，使得自然语言理解成为计算机了解用户意图的关键技术。其中中文查询语言理解是自然语言理解的核心内容之一，受到人们越来越广泛的关注。目前市面上缺少将自然语言查询解析转化成结构话数据的方法，为了解决此类问题，本发明为了加深计算机对自然查询语言的理解能力，采用面向数据分析领域的语义依存分析方法，提出了一种基于语义依存分析模型与文法识别的中文查询语言依存解析方法，通过依存关系划分和文法识别实现自然语言的转述，将查询语言解析为结构化的信息。基本能够有效地处理各种常见形式的查询语句，具有良好的可用性。发明内容 [0003]本发明的目的在于提供一种自然语言查询领域的依存分析方法，通过依存关系划分和文法识别实现自然语言的转述,将查询语言解析为结构化的信息，能够有效地处理各种常见形式的查询语句,具有良好的可用性，以解决上述背景技术中提出的问题。 [0004]为实现上述目的，本发明提供如下技术方案： [0005]一种自然语言查询领域的依存分析方法，包括如下步骤： [0006]S1、收集并整理自然语言查询数据集； [0007]S2、构建基于文法和语义的依存分析模型； [0008]S3、依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树； [0009]S4、对依存树进行剪枝； [0010]S5、依据语义解析要求调整依存树。 [0011]作为本发明的一种自然语言查询领域的依存分析方法优选的，所述S1中收集并整理自然语言查询数据集具体为：收集并整理自然语言查询问句的数据集，对于得到的问句数据集进行预处理。 [0012]作为本发明的一种自然语言查询领域的依存分析方法优选的，对于得到的问句数据集进行预处理包括根据自然语言查询的特殊要求，对问句数据集先行进行分词和组词组，同时为词组标注词性和词义。 [0013]作为本发明的一种自然语言查询领域的依存分析方法优选的，对于得到的问句数据集进行预处理还包括依据问句的查询语义，对问句进行分类归纳，以方便后续同一查询语义问句的统一处理。 [0014]作为本发明的一种自然语言查询领域的依存分析方法优选的，所述S2中构建基于说　明　书 1/3 页 3 CN 115455039 A 3

专利 一种自然语言查询领域的依存分析方法

专利一种自然语言查询领域的依存分析方法