(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211010616.8
(22)申请日 2022.08.23
(65)同一申请的已公布的文献号
申请公布号 CN 115081453 A
(43)申请公布日 2022.09.20
(73)专利权人 北京睿企信息科技有限公司
地址 100013 北京市东城区和平里 北街6号
6号楼一层101室
专利权人 日照睿安信息科技有限公司
(72)发明人 靳雯 于伟 赵洲洋 石江枫
王全修 王明超
(74)专利代理 机构 北京锺维联合知识产权代理
有限公司 1 1579
专利代理师 李慧敏(51)Int.Cl.
G06F 40/295(2020.01)
G06N 20/00(2019.01)
(56)对比文件
CN 112380864 A,2021.02.19
CN 114548109 A,202 2.05.27
CN 113761924 A,2021.12.07
CN 113836925 A,2021.12.24
CN 111737951 A,2020.10.02
CN 112989828 A,2021.0 6.18
US 2015286 629 A1,2015.10.08
审查员 宋朝
(54)发明名称
一种命名实体的识别方法及系统
(57)摘要
本发明涉及数据处理技术领域, 具体涉及一
种命名实体的识别方法及系统, 该方法利用机器
学习模型识别第二种语言类别的命名实体, 其中
所述机器学习模 型的训练步骤包括: 将第一类文
本样本中的第一种语言的命名实体替换为第二
种语言命名实体得到虚拟命名实体, 利用第一类
文本样本中的虚拟命名实体和第二类文本样本
中的真实命名实体对机器学习模 型进行训练, 并
根据模型的预测结果计算准确率和召回率, 利用
准确率、 召回率和命名实体在样 本中的占比计算
需要调整的比例, 根据调整比例计算调整虚拟命
名实体的数量, 利用调整后的训练集再次训练机
器学习模型, 该方法不仅能过够扩展训练样本,
而且能够通过调整扩展的训练样本来进一步提
高模型的识别能力。
权利要求书2页 说明书5页 附图1页
CN 115081453 B
2022.11.04
CN 115081453 B
1.一种命名实体的识别方法, 其特征在于, 利用机器学习模型识别第二种语言类别的
命名实体, 其中所述机器学习模型的训练步骤 包括:
步骤S100, 获取训练集F, 所述训练集F中包括K个第一类文本样本{f1,f2,…,fK}和M个
第二类文本样本{e1,e2,…,eM}, 其中K>0且M>0; 第一类文本样本和第二类文本样本为第一
种语言的文本;
其中, 第i个第一类文本样本fi包括Rf(i)个标注有第二种 语言命名实体标签的虚拟命
名实体{ai
1,ai
2,…,ai
Rf(i)}, 其中, Rf(i)≥0, i的取值范围为1到K, 每个虚拟命名实体是将fi
中第一种语言的命名实体替换为第二种语言的命名实体, 所述第一种语言和 第二种语言不
同; {f1,f2,…,fK}中虚拟命名实体的总数量Rf满足: Rf=∑K
i=1Rf(i);
其中, 第j个第二类文本样本ej中包括Re(j)个标注有第二种 语言命名实体标签的真实
命名实体{nj
1,nj
2,…,nj
Re(j)}, 其中Re(j)≥0, j的取值范围为1到M, 每个真实命名实体为第
二种语言的命名实体; {e1,e2,…,eM}中真实命名实体的总数量Re满足: Re=∑M
j=1Re(j);
步骤S200, 根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别, 根
据第二种语言命名实体标签和预测类别计算 准确率Pre和召回率Rec;
步骤S300, 根据Pre、 Rec、 K、 M、 Rf和Re得到期望的命名实体的占比P ent, 其中, P ent满足
以下条件: Pent=(Rf+Re)/(K+M)+(Pre ‑Rec)/2;
步骤S400, 根据Pent调整训练集中虚拟命名实体的总数量Rf ´, 其中Rf´满足以下条件:
Rf´=(K+M)*Pent ‑Re, 使机器学习模型根据调整后的虚拟命名实体数量的训练集进行训练。
2.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S100之前还包括:
对于fi中原始的命名实体{ci
1,ci
2,…,ci
Rf(i)}, 根据第二种语言的命名实体库为第t个
第一种语言的命名实体ci
t随机分配 一个第二种语言的命名实体ai
t, 并利用ai
t替换ci
t, 其中
t的取值范围为1到Rf(i), 得到Rf(i)个虚拟命名实体{ai
1,ai
2,…,ai
Rf(i)}。
3.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S200中, Rec满足以下 条件:
Rec=TP/(Rf+Re)
式中, TP为样本 中标注第 二种语言命名实体标签的命名实体被准确预测为第 二种语言
命名实体的数量。
4.根据权利要求1所述的识别方法, 其特 征在于, 所述 步骤S200中, Pre满足以下 条件:
Pre=(TP+TN)/SUM
式中, SUM为F中第二种语言命名实体和非第二种语言命名实体的标签总数量, TP为样
本中的第二种语言命名实体被准确预测为第二种语言命名实体类别的数量, TN为样本中的
非第二种语言命名实体 被准确预测为非第二种语言命名实体 类别的数量。
5.根据权利要求1所述的识别方法, 其特征在于, 所述虚拟命名实体和真实命名实体的
实体类别相同。
6.根据权利要求1所述的识别方法, 其特 征在于, 所述K为M的N 倍, 其中N 为正整数。
7.根据权利要求 4所述的识别方法, 其特 征在于, 所述 N的初始取值范围为[3,15]。
8.根据权利要求1所述的识别方法, 其特 征在于, 所述机器学习模型为BERT模型。
9.一种命名实体的识别系统, 其特征在于, 所述系统包括处理器和非瞬时性计算机可
读存储介质, 所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,
所述至少一条指 令或所述至少一段程序由处理器加载并执行以实现如权利要求 1‑8中任意权 利 要 求 书 1/2 页
2
CN 115081453 B
2一项所述的识别方法。权 利 要 求 书 2/2 页
3
CN 115081453 B
3
专利 一种命名实体的识别方法及系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:59:57上传分享