iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211010616.8 (22)申请日 2022.08.23 (65)同一申请的已公布的文献号 申请公布号 CN 115081453 A (43)申请公布日 2022.09.20 (73)专利权人 北京睿企信息科技有限公司 地址 100013 北京市东城区和平里 北街6号 6号楼一层101室 专利权人 日照睿安信息科技有限公司 (72)发明人 靳雯 于伟 赵洲洋 石江枫  王全修 王明超  (74)专利代理 机构 北京锺维联合知识产权代理 有限公司 1 1579 专利代理师 李慧敏(51)Int.Cl. G06F 40/295(2020.01) G06N 20/00(2019.01) (56)对比文件 CN 112380864 A,2021.02.19 CN 114548109 A,202 2.05.27 CN 113761924 A,2021.12.07 CN 113836925 A,2021.12.24 CN 111737951 A,2020.10.02 CN 112989828 A,2021.0 6.18 US 2015286 629 A1,2015.10.08 审查员 宋朝 (54)发明名称 一种命名实体的识别方法及系统 (57)摘要 本发明涉及数据处理技术领域, 具体涉及一 种命名实体的识别方法及系统, 该方法利用机器 学习模型识别第二种语言类别的命名实体, 其中 所述机器学习模 型的训练步骤包括: 将第一类文 本样本中的第一种语言的命名实体替换为第二 种语言命名实体得到虚拟命名实体, 利用第一类 文本样本中的虚拟命名实体和第二类文本样本 中的真实命名实体对机器学习模 型进行训练, 并 根据模型的预测结果计算准确率和召回率, 利用 准确率、 召回率和命名实体在样 本中的占比计算 需要调整的比例, 根据调整比例计算调整虚拟命 名实体的数量, 利用调整后的训练集再次训练机 器学习模型, 该方法不仅能过够扩展训练样本, 而且能够通过调整扩展的训练样本来进一步提 高模型的识别能力。 权利要求书2页 说明书5页 附图1页 CN 115081453 B 2022.11.04 CN 115081453 B 1.一种命名实体的识别方法, 其特征在于, 利用机器学习模型识别第二种语言类别的 命名实体, 其中所述机器学习模型的训练步骤 包括: 步骤S100, 获取训练集F, 所述训练集F中包括K个第一类文本样本{f1,f2,…,fK}和M个 第二类文本样本{e1,e2,…,eM}, 其中K>0且M>0; 第一类文本样本和第二类文本样本为第一 种语言的文本; 其中, 第i个第一类文本样本fi包括Rf(i)个标注有第二种 语言命名实体标签的虚拟命 名实体{ai 1,ai 2,…,ai Rf(i)}, 其中, Rf(i)≥0, i的取值范围为1到K, 每个虚拟命名实体是将fi 中第一种语言的命名实体替换为第二种语言的命名实体, 所述第一种语言和 第二种语言不 同; {f1,f2,…,fK}中虚拟命名实体的总数量Rf满足: Rf=∑K  i=1Rf(i); 其中, 第j个第二类文本样本ej中包括Re(j)个标注有第二种 语言命名实体标签的真实 命名实体{nj 1,nj 2,…,nj Re(j)}, 其中Re(j)≥0, j的取值范围为1到M, 每个真实命名实体为第 二种语言的命名实体; {e1,e2,…,eM}中真实命名实体的总数量Re满足: Re=∑M  j=1Re(j); 步骤S200, 根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别, 根 据第二种语言命名实体标签和预测类别计算 准确率Pre和召回率Rec; 步骤S300, 根据Pre、 Rec、 K、 M、 Rf和Re得到期望的命名实体的占比P ent, 其中, P ent满足 以下条件: Pent=(Rf+Re)/(K+M)+(Pre ‑Rec)/2; 步骤S400, 根据Pent调整训练集中虚拟命名实体的总数量Rf ´, 其中Rf´满足以下条件: Rf´=(K+M)*Pent ‑Re, 使机器学习模型根据调整后的虚拟命名实体数量的训练集进行训练。 2.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S100之前还包括: 对于fi中原始的命名实体{ci 1,ci 2,…,ci Rf(i)}, 根据第二种语言的命名实体库为第t个 第一种语言的命名实体ci t随机分配 一个第二种语言的命名实体ai t, 并利用ai t替换ci t, 其中 t的取值范围为1到Rf(i), 得到Rf(i)个虚拟命名实体{ai 1,ai 2,…,ai Rf(i)}。 3.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S200中, Rec满足以下 条件: Rec=TP/(Rf+Re) 式中, TP为样本 中标注第 二种语言命名实体标签的命名实体被准确预测为第 二种语言 命名实体的数量。 4.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S200中, Pre满足以下 条件: Pre=(TP+TN)/SUM 式中, SUM为F中第二种语言命名实体和非第二种语言命名实体的标签总数量, TP为样 本中的第二种语言命名实体被准确预测为第二种语言命名实体类别的数量, TN为样本中的 非第二种语言命名实体 被准确预测为非第二种语言命名实体 类别的数量。 5.根据权利要求1所述的识别方法, 其特征在于, 所述虚拟命名实体和真实命名实体的 实体类别相同。 6.根据权利要求1所述的识别方法, 其特 征在于, 所述K为M的N 倍, 其中N 为正整数。 7.根据权利要求 4所述的识别方法, 其特 征在于, 所述 N的初始取值范围为[3,15]。 8.根据权利要求1所述的识别方法, 其特 征在于, 所述机器学习模型为BERT模型。 9.一种命名实体的识别系统, 其特征在于, 所述系统包括处理器和非瞬时性计算机可 读存储介质, 所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序, 所述至少一条指 令或所述至少一段程序由处理器加载并执行以实现如权利要求 1‑8中任意权 利 要 求 书 1/2 页 2 CN 115081453 B 2一项所述的识别方法。权 利 要 求 书 2/2 页 3 CN 115081453 B 3

.PDF文档 专利 一种命名实体的识别方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种命名实体的识别方法及系统 第 1 页 专利 一种命名实体的识别方法及系统 第 2 页 专利 一种命名实体的识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:59:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。