iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211133281.9 (22)申请日 2022.09.17 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 张春祥 杨玉建 张育隆  (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多路图采样聚合神经网络的词义消歧 方法 (57)摘要 本发明涉及一种基于多路图采样聚合 (Graph SAmple and aggreGatE, GraphSAGE)神 经网络的词义消歧方法。 本发明首先对包含歧义 词的语句进行分词、 词性标注、 语义类标注和偏 旁部首标注处理。 以包含歧义词的句子, 以及句 中所包含的词形、 词性、 语义类和偏旁部首作为 消歧特征并作为节点来构建四种词义消歧特征 图, 使用Word2Vec工具、 Bi ‑LSTM网络和 Attention机制对特征进行向量化处理。 用训练 语料优化多路GraphSAGE神经网络。 用优化后的 多路GraphSAGE神经网络, 对测试语料进行词义 消歧, 可得到歧义词汇在各个语义类别下的概率 分布。 把概率最大值对应的语义类作为歧义词汇 的语义类。 本发明具有较好的词义消歧效果, 更 准确地判断歧义词汇的真实含义。 权利要求书3页 说明书8页 附图5页 CN 115392247 A 2022.11.25 CN 115392247 A 1.基于多路图采样聚合神经网络的词义消歧方法, 其特征在于, 该方法主要包括以下 步骤: 步骤1: 对SemEval ‑2007:Task#5语料所包含的所有汉语句子进行分词、 词性标注、 语义 类标注和偏旁部首标注, 选取歧义词汇所在的句子, 以及 歧义词汇左右两个邻接词汇单元 的词形、 词性、 语义类和偏旁部首作为消歧特 征。 步骤2: 使用Bi ‑LSTM和Attention网络将提取的句子特征进行向量化处理, 使用 Word2Vec工具将词形、 词性、 语义类和偏旁部首特征进行向量化处理, 将处理好的SemEval ‑ 2007:Task#5中的训练语料作为训练数据, 将处理好的SemEval ‑2007:Task#5中的测试语料 作为测试 数据。 步骤3: 将提取的句子, 以及歧义词左右两个邻 接词汇单元的词形、 词性、 语义类和偏旁 部首作为图的节点, 分别构建句子 ‑词形词义消歧特征图, 构建句子 ‑词性词义消歧特征图, 构建句子 ‑语义类词义消歧特 征图, 构建句子 ‑偏旁部首词义消歧特 征图。 步骤4: 训练过程, 将训练数据构建的四种词义消歧特征图输入到多路GraphSAGE神经 网络并进行优化, 得到优化后的多路GraphSAGE神经网络 。 步骤5: 测试过程为语义分类过程, 将由测试数据构建的四种词义消歧特征图输入到优 化后的多路Gr aphSAGE神经网络, 计算歧义词汇在每个语义类别下的概率分布, 其中, 具有 最大概率的语义类别即为歧义词汇的语义类别。 2.根据权利要求1所述的基于多路图采样聚合神经网络的词义消歧方法, 其特征在于, 所述步骤1中, 对包含歧义词汇 w的汉语句子进 行分词、 词性标注、 语义类标注和偏旁部首标 注, 提取消歧特 征, 具体步骤为: 步骤1‑1利用汉语分词工具对汉语句子进行词汇切分; 步骤1‑2利用汉语词性标注工具对已切分好的词汇进行词性标注; 步骤1‑3利用汉语 语义类标注工具对已切分好的词汇进行语义类标注; 步骤1‑4利用汉字偏旁部首 标注工具对已切分好的词汇进行偏旁部首 标注; 步骤1‑5选取歧义词汇所在的句子, 歧义词汇左右两个邻接词汇单元的词形、 词性、 语 义类和偏旁部首作为消歧特 征。 3.根据权利要求1所述的多路图采样聚合神经网络的词义消歧方法, 其特征在于, 所述 步骤2中, 对句子特征进 行向量化处理, 对词形、 词性、 语义类和偏旁部首特征进 行向量化处 理, 获取训练数据和 测试数据, 具体步骤为: 步骤2‑1使用Bi ‑LSTM和Attention网络对提取的句子特征进行向量化处理, 使用 Word2Vec工具分别对提取的词形、 词性、 语义类和偏旁部首特征进 行向量化处理, 经过向量 化处理后, 每个消歧特 征对应于20 0维的特征向量; 步骤2‑2将处理好的SemEval ‑2007:Task#5中的训练语料作为训练数据, 将处理好的 SemEval‑2007:Task# 5中的测试语料作为测试 数据。 4.根据权利要求1所述的基于多路图采样聚合神经网络的词义消歧方法, 其特征在于, 所述步骤3中, 构建四种词义消歧特 征图, 具体步骤为: 步骤3‑1将带有歧义词汇w的句子以及w左右两个邻接词汇单元的词形作为句子 ‑词形 图中的节点; 将带有w的句子以及w左右两个邻接词汇单元 的词性作为句子 ‑词性图中的节 点; 将带有w的句子以及w左右两个邻接词汇单元的语义类作为句子 ‑语义类图中的节点; 将权 利 要 求 书 1/3 页 2 CN 115392247 A 2带有w的句子以及w左右两个邻接词汇单 元的偏旁部首作为句子 ‑偏旁部首图中的节点; 步骤3‑2使用步骤2中得到的消歧特征的特征向量分别 对句子‑词形图中的句子节点和 词形节点、 句子 ‑词性图中的句子节点和词性节点、 句子 ‑语义类图中的句子节点和语义类 节点、 句子 ‑偏旁部首图中的句子节点和偏旁部首节点进行权值嵌入; 步骤3‑3根据词形在句子中出现的次数对句子 ‑词形图建立句子节点与词形节点之间 的边关系, 根据词性在句 子中出现的次数对句 子‑词性图建立句 子节点与词性节点之间的 边关系, 根据语义类在句 子中出现的次数对句 子‑语义类图建立句 子节点与语义类节点之 间的边关系, 根据偏旁部首在句 子中出现的次数对句 子‑偏旁部首图建立句 子节点与偏旁 部首节点之间的边关系。 5.根据权利要求1所述的基于多路图采样聚合神经网络的词义消歧方法, 其特征在于, 所述步骤4中, 对多路GraphSAGE神经网络进行优化, 具体步骤为: 步骤4‑1将由训练数据构 建的句子 ‑词形图输入到初始化的GraphSAGE0中, 将由训练数 据构建的句子 ‑词性图输入到初始化的GraphSAGE1 中, 将由训练数据构建的句子 ‑语义类图 输入到初始化的GraphSAGE2中, 将由训练数据构建的句子 ‑偏旁部首图输入到初始化的 GraphSAGE3中, 其 中, GraphSAGE0、 GraphSAGE1、 GraphSAGE2和GraphSAGE3是初始化相同的 神经网络; 步骤4‑2分别经过各自GraphSAGE神经网络 的聚合层, 对消歧信息进行过滤, 提取更完 整的消歧特 征, 对节点及其邻接节点之间的特 征进行聚合, 聚合公式如下: 其中, 表示节点v的特征向量, 包含k层聚合操作, 表示节点ui的特征向量, 包含k ‑ 1层聚合操作, n 为节点v的邻接点采样数; 步骤4‑3分别经过各自GraphSAGE 的输出层, 并对四个输出层的输出结果进行拼接, 利 用softmax函数来计算歧义词汇w在语义类别si(i=1,2,...,n)下的预测概 率: 其中, ai表示softmax函数的输入数据; 步骤4‑4利用交叉熵损失函数计算预测标签类别与实际标签类别之间的误差loss, 计 算公式如下: 其中, x为歧义词汇w在不同语义类别下的预测概率值, y为歧义词汇w的真实语义类别 标签; 步骤4‑5根据误差l oss反向传播, 逐层更新 参数, 参数 更新过程如下: 其中, θ表示 参数集, θ ’表示更新后的参数集, α 为学习率;权 利 要 求 书 2/3 页 3 CN 115392247 A 3

PDF文档 专利 基于多路图采样聚合神经网络的词义消歧方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多路图采样聚合神经网络的词义消歧方法 第 1 页 专利 基于多路图采样聚合神经网络的词义消歧方法 第 2 页 专利 基于多路图采样聚合神经网络的词义消歧方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。