iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210886280.5 (22)申请日 2022.07.26 (71)申请人 华南农业大 学 地址 510642 广东省广州市天河区五山路 483号 (72)发明人 高锐涛 郭亮 金鸿 高宇 曹璨 李岚潇 资乐 侯康 林达伟 (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 牛念 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 7/00(2006.01) (54)发明名称 一种中文农业命名实体识别方法 (57)摘要 本发明涉及农业信息技术的技术领域, 更具 体地, 涉及一种中文农业命名实体识别方法, 在 获取有关中文农业的预料后, 对 预料进行处理获 得数据集并进行标记, 然后利用BERT预训练模型 进行训练后, 将BERT预训练模型的输出进行对抗 训练, 再通过BiLSTM层学习上下特征, 最后通过 CRF模型输出最佳的标注结果, 提高了对于中文 农业命名实体识别的精确率, 召回率和F1值, 增 加中文农业领域命名实体识别的有效性。 权利要求书2页 说明书6页 附图2页 CN 115114926 A 2022.09.27 CN 115114926 A 1.一种中文农业命名实体识别方法, 其特 征在于, 包括以下步骤: S1: 获取网络中有关中文农业的语料, 并对语料进行处理获得数据集, 将数据集划分为 训练集和 测试集; S2: 对数据集中的数据进行 标注; S3: 利用BERT预训练模型获取训练集中的词向量并利用对抗训练增 加对抗样本; S4: 将步骤S3中得到的结果输入到Bi LSTM层学习上 下文特征; S5: 将步骤S4中得到的结果输入到 CRF模型中输出最佳的标注结果。 2.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S1中, 对语料 的处理过程为: 将语料经过去重、 标点符号规范化, 并对语料中的乱码数据进行处理, 选择 以句号作为划分每次所需要输入的句子, 对于部分字数超过限制的句子采用人工划分以防 止影响语义。 3.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S2中, 对数据 进行标注时, 分别选择病虫害名称、 喷药位置、 作物品种、 农药名称、 农药浓度五种实体, 使 用YEDDA标注工具选择以三元标记BIO格式进行标注, B代表实体的开始, I代表实体内部的 字, O代表非实体。 4.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S3中, 所述 BERT预训练模型最大程度地学习到 字、 词句之间的关系特 征。 5.根据权利要求4所述的中文农业命名实体识别方法, 其特征在于, 所述BERT预训练模 型的核心为自注意力机制, 所述自注意力机制会把输入的数据通过 处理后得到一个加权的 特征向量, 用于获取到文本中字与字之间的关系。 6.根据权利要求1所述的中文农业命名实体识别方法, 其特征在于, 所述对抗训练为引 入噪声的训练方法, 由于 自然语言处理时输入的是离散的向量, 不能直接对输入的数据进 行扰动, 因此, 通过对BERT预训练模型输出的词向量进行扰动。 7.根据权利要求6所述的中文农业命名实体识别方法, 其特征在于, 进行对抗训练的过 程为: 在对抗扰动的范围空间内找到一组使损失最大 的对抗扰动组成对抗样本集, 通过对 模型参数 的更新, 使模型在对抗样本集上 的期望损失最小, 则对训练样本添加对抗扰动的 损失之和为: 式中, x表示输入 的数据, y表示数据的标签, D表示训练集中的数据, θ是模型的参数构 成, δ 是样本的对抗扰动, Ω是对抗扰动的范围空间, L( θ, x, y)是每 个样本的损失; 为了防止 δ 过 大, 需要进行标准化处理: δ = ε g/| |g||2 式中, g为梯度, ε为超参数, 为输入的扰动量; 通过计算可以得到样本的对抗扰动, 将样本的对抗扰动添加到BERT预训练模型输出的 词向量后生产对抗样 本, 最后将原始输出的词向量与生 成的对抗样 本共同输入BiLSTM层 进 行训练。权 利 要 求 书 1/2 页 2 CN 115114926 A 28.根据权利 要求1所述的中文农业命名实体识别方法, 其特征在于, 所述BiLSTM层用于 捕获句子之间长距离的依赖关系, 所述BiLSTM层包括输入门、 输出门和遗忘门, 通过输入 门、 输出门和遗 忘门可以决定需要更新输入的、 输出的和遗 忘的信息, 计算公式为: ft=σg(Wfxt+Ufht‑1+bf) it=σg(Wixt+Uiht‑1+bi) ot=σg(Woxt+Uoht‑1+bo) ht=ot*σh(ct) 式中, Wf、 Wi、 Wo、 Wc分别表示遗忘门、 输入门、 输出门以及记忆细胞的权重矩阵; Wf、 Wi、 Wo、 Wc分别遗忘门、 输入门、 输出门 以及记忆细胞的状态; bf、 bi、 bo、 bc分别表示遗忘门、 输入门、 输出门以及记忆细胞的LSTM的偏差; it、 ot、 ft、 ct分别表示t 时刻的输入门、 输出门、 遗忘门 以及记忆细胞的信息状态; σ 表示sigmo id激活函数; ht表示t时刻隐藏层的状态。 9.根据权利 要求1所述的中文农业命名实体识别方法, 其特征在于, 步骤S5中, CRF模型 通过对相邻标签进行学习, 获得标签之间的隐含关系, 为最后结果的输出添加限制以提高 模型的准确率。 10.根据权利要求9所述的中文农业命名实体识别方法, 其特征在于, 采用线性链条件 随机场计算条件概 率P(y|x), 计算公式为: 其中: 式中, tk(yi‑1, yi, x, i)表示转移特征矩阵、 sl(yi, x, i)表示状态特征, λk、 ul分别为tk (yi‑1, yi, x, i)、 sl(yi, x, i)所对应的权值, Z(X)为归一化因子, x表示观察变量, yi表示隐含 变量。权 利 要 求 书 2/2 页 3 CN 115114926 A 3
专利 一种中文农业命名实体识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:14:28
上传分享
举报
下载
原文档
(706.0 KB)
分享
友情链接
NB-T 10691-2021 数据中心机房用不间断电源系统.pdf
HS-T 17-2006 海关业务基础数据元目录.pdf
DB65-T 4458-2021 南疆盐碱地土壤调理剂施用技术规程 新疆维吾尔自治区.pdf
DB32-T 4765-2024 化工行业智能化改造数字化转型网络化联接实施指南 江苏省.pdf
GB-T 42755-2023 人工智能 面向机器学习的数据标注规程.pdf
GB-T 37096-2018 信息安全技术 办公信息系统安全测试规范.pdf
GB-T 34534-2017 焦炭 灰成分含量的测定 X射线荧光光谱法.pdf
GM-T 0063-2018 智能密码钥匙密码应用接口检测规范.pdf
DB34-T 5037-2022 船闸工程施工安全检查标准 安徽省.pdf
GB-T 38548.2-2020 内容资源数字化加工 第2部分:采集方法.pdf
ISO IEC 20924 2024 Internet of Things (IoT) and digital twin — Vocabulary.pdf
DB43-T 2256-2021 信息技术应用创新工程建设规范第 13 部分:国产化信息系统运行维护规范 湖南省.pdf
T-CCSAS 026—2023 化工企业操作规程管理规范.pdf
YD-T 4042.4-2022 智慧化工园区大数据平台 第4部分:平台运维管理技术要求.pdf
SAE_2003-01-1982_Testing Method and Effect of ATF Performance on Degradation of Wet Friction Materials.pdf
GM T 0009-2023 SM2密码算法使用规范.pdf
T-ZACA 010—2019 审核员服务行为规范.pdf
GB-T 32082-2015 船舶管路用彩色识别标志.pdf
GB-T 35410-2017 液相色谱-串联四极质谱仪性能的测定方法.pdf
T-ZZB 2751—2022 地面光伏系统用直流连接器.pdf
1
/
11
评价文档
赞助3元 点击下载(706.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。