iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211205747.1 (22)申请日 2022.09.30 (71)申请人 北京道达天际科技股份有限公司 地址 100085 北京市海淀区马连洼北路8号 C座7层70 3室 (72)发明人 石文翔 李光林 李军 (74)专利代理 机构 北京市领专知识产权代理有 限公司 1 1590 专利代理师 潘镜如 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) (54)发明名称 基于BERT并融合N-gram特征的实体抽取方 法 (57)摘要 本发明涉及基于BERT并融合N ‑gram特征的 实体抽取方法, 包括步骤: 将语料文本输入BERT 预训练模型转换为字向量; 基于语料文本构建N ‑ gram特征向量, 所述N ‑gram特征向量的维度与字 向量的维度相同; 将字向量和N ‑gram特征向量进 行融合, 得到融合后的高维向量; 将融合得到的 高维向量经过一个全连接层后输入CRF模型中进 行解码, 得到语料文本中每个字符是否属于某一 实体的概率 分布。 本发明基于BERT+CRF模型融合 N‑gram特征向量, 提取出来的高维向量能够包含 更加丰富的特 征, 使模型拥有更加丰富的知识。 权利要求书1页 说明书5页 附图2页 CN 115270803 A 2022.11.01 CN 115270803 A 1.基于BERT并融合 N‑gram特征的实体抽取 方法, 其特 征在于: 包括以下步骤: 步骤S1, 将语料文本 输入BERT预训练模型转换为字向量; 步骤S2, 基于语料文本构建N ‑gram特征向量, 所述N ‑gram特征向量的维度与字向量的 维度相同; 步骤S3, 将字向量和N ‑gram特征向量进行融合, 得到融合后的高维向量; 步骤S4, 将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码, 得到语 料文本中每 个字符是否属于某一实体的概 率分布。 2.根据权利要求1所述的基于BERT并融合N ‑gram特征的实体抽取方法, 其特征在于: 所 述将语料文本 输入BERT预训练模型转换为字向量的步骤, 包括: 将语料文本划分为若干条目标语句, 使用BIO标注方法对每条目标语句中的实体部分 和非实体部分进行标注, 其中B表示实体的开始字符, I表示实体的非开始字符, O表示非实 体字符; 将标注后的目标语句按照BERT预训练模型的词库字典转换为序列ID, 并在目标语句的 开始位置插入特殊字符CLS, 在目标语句的结束位置插入特殊字符SEP, 以及对每条目标语 句配置segment embedding, segment embedding为与目标语句维度相同的全零矩阵; 将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型 中, BERT预训练模型根据 序列ID在embed ding层中进行查表, 获得字向量。 3.根据权利要求1所述的基于BERT并融合N ‑gram特征的实体抽取方法, 其特征在于: 所 述基于语料文本构建N ‑gram特征向量的步骤, 包括: 将语料文本划分为若干条目标语句, 按照字符长度为N的滑动窗口切分目标语句, 使得 目标语句形成多个gram频度列表; 再对每个gram频度列表按照设定的阈值进行 过滤, 形成N ‑gram特征向量。 4.根据权利要求1所述的基于BERT并融合N ‑gram特征的实体抽取方法, 其特征在于: 所 述将字向量和N ‑gram特征向量进 行融合, 得到融合后的高维向量的步骤, 包括: 所述字向量 与N‑gram特征向量的维度相同, 将 字向量与N ‑gram特征向量相加 后, 计算平均, 得到融合后 的高维向量。 5.根据权利要求2所述的基于BERT并融合N ‑gram特征的实体抽取方法, 其特征在于: 所 述将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码, 得到语料文本中 每个字符是否属于某一实体的概 率分布的步骤, 包括: 将融合后的高维 向量继续输入所述BERT预训练模型的Self ‑Attention层中, 最终输出 包含有特殊字符CLS和特殊字符SEP的每 个字符的融合特 征向量; 将所有融合特征向量输入CRF模型进行解码, 所述CRF模型包括状态特征函数、 转移特 征函数; 通过状态特征函数获取当前字符的实体标签, 通过转移特征函数获取当前字符与 相邻字符组合后的实体标签; 输出每个字符属于某一实体的概 率分布。权 利 要 求 书 1/1 页 2 CN 115270803 A 2基于BERT并 融合N‑gram特征的实体抽取方 法 技术领域 [0001]本发明涉及信息抽取技术领域, 特别涉及一种基于B ERT并融合N ‑gram特征的实体 抽取方法。 背景技术 [0002]为了自动从大量的文本信息中抽取出所需要的实体信息, 目前的实体抽取方法使 用的基本都是BERT+CRF模型的方法, 在BERT预训练模型的基础下进行微调, 然后进行实体 的抽取。 [0003]使用BERT+CRF模型进行实体抽取的能力主要取决于模型对文本信息特征的提取, 其中BERT预训练模型的输入都是以单字为基础, 经过多个Transformer encode模块, 提取 文本信息的高维特征, 然后根据提取 的文本特征对每个字进行实体类别分类。 提取出 的高 维特征中蕴含的信息越丰富, 则进行实体抽取时准确率越高。 [0004]但是中文的汉字之间都是会有一些联系的, 割裂来看其中的文字是不能准确得到 其中信息的。 BERT预训练模型的结构中虽然有Self ‑Attention层的存在, 能够一定程度上 使单个汉字与其他汉字产生联系, 但是这种联系 是远远不够的。 这就使得最终提取出来的 高维特征中蕴含的信息不够丰富, 影响对最终 实体抽取的准确率。 发明内容 [0005]本发明的目的在于充分发挥文本数据的上下文信息, 基于BERT预训练模型与N ‑ gram特征进 行融合后, 能够较大程度的挖掘文本的信息, 提高实体抽取的准确性, 提供一种 基于BERT并融合 N‑gram特征的实体抽取 方法。 [0006]为了实现上述发明目的, 本发明实施例提供了以下技 术方案: 基于BERT并融合 N‑gram特征的实体抽取 方法, 包括以下步骤: 步骤S1, 将语料文本 输入BERT预训练模型转换为字向量; 步骤S2, 基于语料文本构建N ‑gram特征向量, 所述N ‑gram特征向量的维度与字 向 量的维度相同; 步骤S3, 将字向量和N ‑gram特征向量进行融合, 得到融合后的高维向量; 步骤S4, 将融合得到的高维向量经过一个全连接层后输入C RF模型中进行解码, 得 到语料文本中每 个字符是否属于某一实体的概 率分布。 [0007]所述将语料文本 输入BERT预训练模型转换为字向量的步骤, 包括: 将语料文本划 分为若干条目标语句, 使用BIO标注方法对每条目标语句中的实体 部分和非实体部分进行标注, 其中B表示实体的开始字符, I表示实体的非开始字符, O表示 非实体字符; 将标注后的目标语句按照B ERT预训练模型的词库字典转换为序列ID, 并在目标语 句的开始位置插入特殊字符CLS, 在目标语句的结束位置插入特殊字符SEP, 以及对每条目 标语句配置segment embedding, segment embedding为与目标语句维度相同的全零矩阵;说 明 书 1/5 页 3 CN 115270803 A 3
专利 基于BERT并融合N-gram特征的实体抽取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-03-03 12:13:41
上传分享
举报
下载
原文档
(398.5 KB)
分享
友情链接
GB-T 22240-2018 信息安全技术 网络安全等级保护定级指南.pdf
飞驰云联 企业数据防泄密产品选型指南 2021.pdf
DB3708-T 10-2022 公共机构节能监管平台建设指南 济宁市.pdf
GB-T 41773-2022 信息安全技术 步态识别数据安全要求.pdf
SL-T 794-2020 堤防工程安全监测技术规程.pdf
GB-T 38309-2019 火灾烟气流毒性组分测试 FTIR分析火灾烟气中气体组分的指南.pdf
GM-T 0091-2020 基于口令的密钥派生规范.pdf
YD-T 4066-2022 移动终端图像及视频防抖性能技术要求和测试方法.pdf
GM-Z 0001—2013 密码术语.pdf
GB-T 33840-2017 水套加热炉通用技术要求.pdf
T-WHDQHX 004—2022 电气成套设备制造业数字化车间 通用要求.pdf
GB-T 36630.2-2018 信息安全技术 信息技术产品安全可控评价指标 第2部分:中央处理器.pdf
中汽研汽车检验中心 汽车个人信息保护白皮书 2022.pdf
数据安全评估师ccrc-dsa.pdf
GB-T 35263-2017 纺织品 接触瞬间凉感性能的检测和评价.pdf
GB-T 22025-2008 气雾剂级异丁烷 A-31.pdf
NIST.SP.800-181 国家网络安全教育计划(NICE)网络安全队伍框架-译文-v2.0 .pdf
GB-T 40148-2021 科技评估基本术语.pdf
DB11-T 1372-2016 自然灾害和事故灾难类预警信息发布流程 北京市.pdf
JR-T0167-2020 云计算技术金融应用规范 安全技术要求.pdf
1
/
9
评价文档
赞助3元 点击下载(398.5 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。