iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210886280.5 (22)申请日 2022.07.26 (71)申请人 华南农业大 学 地址 510642 广东省广州市天河区五山路 483号 (72)发明人 高锐涛 郭亮 金鸿 高宇 曹璨  李岚潇 资乐 侯康 林达伟  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 牛念 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (54)发明名称 一种中文农业命名实体识别方法 (57)摘要 本发明涉及农业信息技术的技术领域, 更具 体地, 涉及一种中文农业命名实体识别方法, 在 获取有关中文农业的预料后, 对 预料进行处理获 得数据集并进行标记, 然后利用BERT预训练模型 进行训练后, 将BERT预训练模型的输出进行对抗 训练, 再通过BiLSTM层学习上下特征, 最后通过 CRF模型输出最佳的标注结果, 提高了对于中文 农业命名实体识别的精确率, 召回率和F1值, 增 加中文农业领域命名实体识别的有效性。 权利要求书2页 说明书6页 附图2页 CN 115114926 A 2022.09.27 CN 115114926 A 1.一种中文农业命名实体识别方法, 其特 征在于, 包括以下步骤: S1: 获取网络中有关中文农业的语料, 并对语料进行处理获得数据集, 将数据集划分为 训练集和 测试集; S2: 对数据集中的数据进行 标注; S3: 利用BERT预训练模型获取训练集中的词向量并利用对抗训练增 加对抗样本; S4: 将步骤S3中得到的结果输入到Bi LSTM层学习上 下文特征; S5: 将步骤S4中得到的结果输入到 CRF模型中输出最佳的标注结果。 2.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S1中, 对语料 的处理过程为: 将语料经过去重、 标点符号规范化, 并对语料中的乱码数据进行处理, 选择 以句号作为划分每次所需要输入的句子, 对于部分字数超过限制的句子采用人工划分以防 止影响语义。 3.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S2中, 对数据 进行标注时, 分别选择病虫害名称、 喷药位置、 作物品种、 农药名称、 农药浓度五种实体, 使 用YEDDA标注工具选择以三元标记BIO格式进行标注, B代表实体的开始, I代表实体内部的 字, O代表非实体。 4.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S3中, 所述 BERT预训练模型最大程度地学习到 字、 词句之间的关系特 征。 5.根据权利要求4所述的中文农业命名实体识别方法, 其特征在于, 所述BERT预训练模 型的核心为自注意力机制, 所述自注意力机制会把输入的数据通过 处理后得到一个加权的 特征向量, 用于获取到文本中字与字之间的关系。 6.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 所述对抗训练为引 入噪声的训练方法, 由于 自然语言处理时输入的是离散的向量, 不能直接对输入的数据进 行扰动, 因此, 通过对BERT预训练模型输出的词向量进行扰动。 7.根据权利要求6所述的中文农业命名实体识别方法, 其特征在于, 进行对抗训练的过 程为: 在对抗扰动的范围空间内找到一组使损失最大 的对抗扰动组成对抗样本集, 通过对 模型参数 的更新, 使模型在对抗样本集上 的期望损失最小, 则对训练样本添加对抗扰动的 损失之和为: 式中, x表示输入 的数据, y表示数据的标签, D表示训练集中的数据, θ是模型的参数构 成, δ 是样本的对抗扰动, Ω是对抗扰动的范围空间, L( θ, x, y)是每 个样本的损失; 为了防止 δ 过 大, 需要进行标准化处理: δ = ε g/| |g||2 式中, g为梯度, ε为超参数, 为输入的扰动量; 通过计算可以得到样本的对抗扰动, 将样本的对抗扰动添加到BERT预训练模型输出的 词向量后生产对抗样 本, 最后将原始输出的词向量与生 成的对抗样 本共同输入BiLSTM层 进 行训练。权 利 要 求 书 1/2 页 2 CN 115114926 A 28.根据权利 要求1所述的中文农业命名实体识别方法, 其特征在于, 所述BiLSTM层用于 捕获句子之间长距离的依赖关系, 所述BiLSTM层包括输入门、 输出门和遗忘门, 通过输入 门、 输出门和遗 忘门可以决定需要更新输入的、 输出的和遗 忘的信息, 计算公式为: ft=σg(Wfxt+Ufht‑1+bf) it=σg(Wixt+Uiht‑1+bi) ot=σg(Woxt+Uoht‑1+bo) ht=ot*σh(ct) 式中, Wf、 Wi、 Wo、 Wc分别表示遗忘门、 输入门、 输出门以及记忆细胞的权重矩阵; Wf、 Wi、 Wo、 Wc分别遗忘门、 输入门、 输出门 以及记忆细胞的状态; bf、 bi、 bo、 bc分别表示遗忘门、 输入门、 输出门以及记忆细胞的LSTM的偏差; it、 ot、 ft、 ct分别表示t 时刻的输入门、 输出门、 遗忘门 以及记忆细胞的信息状态; σ 表示sigmo id激活函数; ht表示t时刻隐藏层的状态。 9.根据权利 要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S5中, CRF模型 通过对相邻标签进行学习, 获得标签之间的隐含关系, 为最后结果的输出添加限制以提高 模型的准确率。 10.根据权利要求9所述的中文农业命名实体识别方法, 其特征在于, 采用线性链条件 随机场计算条件概 率P(y|x), 计算公式为: 其中: 式中, tk(yi‑1, yi, x, i)表示转移特征矩阵、 sl(yi, x, i)表示状态特征, λk、 ul分别为tk (yi‑1, yi, x, i)、 sl(yi, x, i)所对应的权值, Z(X)为归一化因子, x表示观察变量, yi表示隐含 变量。权 利 要 求 书 2/2 页 3 CN 115114926 A 3

PDF文档 专利 一种中文农业命名实体识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文农业命名实体识别方法 第 1 页 专利 一种中文农业命名实体识别方法 第 2 页 专利 一种中文农业命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。