(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211135453.6
(22)申请日 2022.09.19
(71)申请人 数预智能科技 (上海) 有限公司
地址 200120 上海市浦东 新区自由贸易试
验区郭守敬路498号8幢19号楼3层
(72)发明人 范陈锦
(51)Int.Cl.
G06F 16/2452(2019.01)
G06F 40/205(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种自然语言查询领域的依存分析方法
(57)摘要
本发明公开了一种自然语言查询领域的依
存分析方法, 针对中文自然语言查询问句解析准
确性不高等问题, 其包括如下步骤: S1、 收集并整
理自然语言查询数据集; S2、 构建基于文法和语
义的依存分析模型; S3、 依存分析模型依据问句
的文法和查询语义构建自然语言查询问句的依
存树; S4、 对依存树进行剪枝; S5、 依据语义解析
要求调整依存树。 该自然语言查询领域的依存分
析方法基于规则和基于统计的理解方法结合,通
过依存文法分析词语序列的依存关系,用以判断
查询语言单位内各成分之间的依存关系,很好的
提高了解析的准确性和完善性, 与已有的通用依
存方法相比, 能够有效地提高自然语 言转数据查
询的准确性。
权利要求书1页 说明书3页 附图1页
CN 115455039 A
2022.12.09
CN 115455039 A
1.一种自然语言查询领域的依存分析 方法, 其特 征在于, 包括如下步骤:
S1、 收集并整理自然语言查询数据集;
S2、 构建基于文法和语义的依存分析模型;
S3、 依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树;
S4、 对依存树进行剪枝;
S5、 依据语义 解析要求调整依存树。
2.根据权利要求1所述的一种自然语言查询领域的依存分析方法, 其特征在于, 所述S1
中收集并整理自然语言查询数据集具体为: 收集并整理自然语言查询问句的数据集, 对于
得到的问句数据集进行 预处理。
3.根据权利要求2所述的一种自然语言查询领域的依存分析方法, 其特征在于, 对于得
到的问句数据集进行预 处理包括根据自然语言查询的特殊要求, 对问句数据集先行进 行分
词和组词组, 同时为词组标注词性和词义。
4.根据权利要求3所述的一种自然语言查询领域的依存分析方法, 其特征在于, 对于得
到的问句数据集进行预处理还包括依据问句的查询语义, 对问句进行分类归纳, 以方便后
续同一查询语义问句的统一处 理。
5.根据权利要求4所述的一种自然语言查询领域的依存分析方法, 其特征在于, 所述S2
中构建基于文法和语义的依存分析模型具体为: 对问句数据集中的问句分词和组词组后的
结果进行特征表示, 之后依据依存规则模版和基于统计的多种 特征抽取方式, 保存为文法
和语义的依存分析模型。
6.根据权利要求5所述的一种自然语言查询领域的依存分析方法, 其特征在于, 词组 的
特征表示方式为将词组的文本、 词序、 词性、 词义向量化后表征为一个统一向量; 多种特征
抽取包括但不限于词组的词性和词义特征、 问句本身的文法特征、 问法的语义特征、 抽取匹
配条件和转换 条件。
7.根据权利要求6所述的一种自然语言查询领域的依存分析方法, 其特征在于, 所述S3
中依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树具体为: 将问
句分词和组词组后的结果按照在原问句中的顺序输入到文法和语义的依存分析模型, 模型
首先会对词组的文本、 词序、 词性和词义特征进 行向量化编码, 之后依存分析模 型会依据词
组的特征编码后的向量值进行模型匹配, 模型匹配会得到可能的多个结果, 对这多个结果
进行打分排序比较, 选择分数最高的结果作为最后的输出结果, 以获取最优的语义依存结
构树。
8.根据权利要求7所述的一种自然语言查询领域的依存分析方法, 其特征在于, 所述S4
中对依存树进行剪枝具体为: 依存树上存在多个冗余的词节点, 对于这些词节点予以剪枝。
9.根据权利要求8所述的一种自然语言查询领域的依存分析方法, 其特征在于, 依存树
上存在的多个冗余的词节点包括但不限于一些无词义的助词、 动词、 代词节点、 对查询语义
解析没有帮助的节点和会 对查询语义 解析存在混淆的词节点。
10.根据权利要求9所述的一种自然语言查询领域的依存分析方法, 其特征在于, 所述
S5中依据语义解析要求调整依存树具体为: 对依存树上的节点按照特定的语义解析标准调
整父子节点上下位的位置, 调整节点的左右子节点的位置, 对上一步中剪枝后的后续节点
的重新拼接。权 利 要 求 书 1/1 页
2
CN 115455039 A
2一种自然语言查询领域 的依存分析方 法
技术领域
[0001]本发明涉及自然语言处理技术领域, 具体为一种自然语言查询领域的依存分析方
法。
背景技术
[0002]随着现代科学技术的发展, 计算机已经成为这个时代标志性的产物, 人们越来越
强烈地希望与计算机进行交流, 而自然语言作为人与计算机进行交流的重要媒介, 使得自
然语言理解成为计算机了解用户意图的关键技术。 其中中文查询语言理解是自然语言理解
的核心内容之一, 受到人们越来越广泛的关注。 目前市面上缺少将自然语言查询解析转化
成结构话数据的方法, 为了解决此类 问题, 本发明为了加深计算机对自然查询 语言的理解
能力, 采用面向数据分析领域的语义依存分析方法, 提出了一种基于语义依存分析模型与
文法识别的中文查询语言依存解析方法, 通过依存关系划分和文法识别实现自然语言的转
述, 将查询语言解析为结构化的信息。 基本能够有效地处理各种常见形式的查询语句, 具有
良好的可用性。
发明内容
[0003]本发明的目的在于提供一种自然语言查询领域的依存分析方法, 通过依存关系划
分和文法识别实现自然语言的转述,将查询语言解析为结构化的信息, 能够有效地处理各
种常见形式的查询语句,具有良好的可用性, 以解决上述背景技 术中提出的问题。
[0004]为实现上述目的, 本发明提供如下技 术方案:
[0005]一种自然语言查询领域的依存分析 方法, 包括如下步骤:
[0006]S1、 收集并整理自然语言查询数据集;
[0007]S2、 构建基于文法和语义的依存分析模型;
[0008]S3、 依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树;
[0009]S4、 对依存树进行剪枝;
[0010]S5、 依据语义 解析要求调整依存树。
[0011]作为本发明的一种自然语言查询领域的依存分析方法优选的, 所述S1中收集并整
理自然语言查询数据集具体为: 收集并整理自然语言查询问句的数据集, 对于得到的问句
数据集进行 预处理。
[0012]作为本发明的一种自然语言查询领域的依存分析方法优选的, 对于得到的问句数
据集进行预处理包括根据自然语言查询的特殊要求, 对问句数据集先行进行分词和组词
组, 同时为词组标注词性和词义。
[0013]作为本发明的一种自然语言查询领域的依存分析方法优选的, 对于得到的问句数
据集进行预处理还包括依据问句的查询语义, 对问句进行分类归纳, 以方便后续同一查询
语义问句的统一处 理。
[0014]作为本发明的一种自然语言查询领域的依存分析方法优选的, 所述S2中构建基于说 明 书 1/3 页
3
CN 115455039 A
3
专利 一种自然语言查询领域的依存分析方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:48上传分享