iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211045358.7 (22)申请日 2022.08.30 (71)申请人 北京睿企信息科技有限公司 地址 100013 北京市东城区和平里 北街6号 6号楼一层101室 申请人 日照睿安信息科技有限公司 (72)发明人 于伟 靳雯 赵洲洋 石江枫  王全修 吴凡  (74)专利代理 机构 北京锺维联合知识产权代理 有限公司 1 1579 专利代理师 李慧敏 (51)Int.Cl. G06F 40/295(2020.01) G06N 20/00(2019.01) G06F 40/253(2020.01)G06F 40/279(2020.01) (54)发明名称 一种实体关系抽取方法及系统 (57)摘要 本发明涉及数据处理技术领域, 具体涉及一 种实体关系抽取方法及系统, 方法包括: 将待提 取文本r输入 经训练的第一机器学习模型预测得 到n个实体标签, 并将带有实体标签的r和所有字 符的特征向量输入经训练的第二机器学习模型 预测主语, 并在主语的两侧增加第一标记符号和 第二标记符号之后得到调整后的文本ru, 获取ru 更新后的特征向量, 将ru、 主语和所有字符更新 后的特征向量输入到经训练的第二机器学习模 型中预测宾语实体的关系标签, 通过该方法解决 了级联法中BERT模型计算量大的问题, 相对于级 联法提高了模型的预测速度。 权利要求书2页 说明书5页 附图1页 CN 115186669 A 2022.10.14 CN 115186669 A 1.一种实体关系抽取 方法, 其特 征在于, 所述方法包括: S100, 将待提取文本r输入经训练的第一机器学习模型预测得到n个实体标签  w={w1, w2,…,wn}, 所述实体包括主语实体和宾语实体, 其中n≥0; S200, 获取r中每个字符的特征向量, 将r、 w和所有字符的特征向量输入经训练的第二 机器学习模型 预测得到 M个主语实体标签src ={src1,src2,…,srcM}, 其中M≥0; S300, 分别在r中第i个主语实体标签srci对应的主语实体两侧增加第一标记符号和第 二标记符号, 得到调整后的文本数据ru, 其中i的取值范围为1到 M; S400, 根据ru更新每个字符的特征向量得到更新后的特征向量, 将ru、 src和所有字符更 新后的特征向量输入到经训练的第二机器学习模型中预测宾语实体的关系标签, 所述宾语 实体的关系标签为主语实体与宾语实体之间的关系。 2.根据权利要求1所述的实体关系抽取方法, 其特征在于, 所述第 一机器学习 模型在利 用训练集进行训练时预测得到K个实体标签, 随机丢弃第一比例Pro的实体标签得到Q个实 体标签, 通过带有Q个实体标签的所述训练集训练第二机器学习模 型; 其中Q=K ×Pro, Pro满 足以下条件: Pro=1 ‑2×Pre×Rec/(Pre+Rec), 其中, Pre为第一机器学习模型的精准率, Rec 为第一机器学习模型的召回率。 3.根据权利要求1所述的实体关系抽取方法, 其特征在于, 所述第 二机器学习 模型的训 练步骤包括: S210, 获取由H个文本样本构成的训练集d={d1,d2,…,dH}, 其中H为正整数, 训练集d中 的每个样本中的实体均携带有实体标签; S220, 将训练集d中的主语实体标注为主语实体标签, 形成主语实体训练集; 在主语两 侧增加了第一标记符号和第二标记符号, 得到调整后的训练样本d ´, 并将宾语实体标注为 关系标签, 得到关系训练集; S230, 获取主语训练集中第h个文本样本dh中每个字符的特征向量和关系训练集中调整 后的d´ h中每个字符的特 征向量, 其中h的取值范围为1到 H; S240, 将主语训练集中的文本样本及其所有字符的标签和特征向量, 以及关系训练集 中的文本样本及其所有字符的标签和特征向量都输入到经训练的第二机器学习模型中预 测主语实体的主语实体标签和宾语实体的关系标签。 4.根据权利要求1所述的实体关系抽取方法, 其特征在于, 所述第 一标记符号和所述第 二标记符号不同, 所述第一标记符号位于主语实体的起始字符之前, 所述第二标记符号位 于主语实体的结束字符 之后。 5.根据权利要求1所述的实体关系抽取方法, 其特征在于, 所述第 一标记符号和所述第 二标记符号均包括成对字符和标识字符且所述标识字符位于成对字符之间; 所述第一标记 符号和所述第二标记符号的成对字符相同、 标识字符不同。 6.根据权利要求1所述的实体关系抽取方法, 其特征在于, 所述第一标记符号为<S>且 所述第二标记符号 为<T>。 7.根据权利要求1所述的实体关系抽取方法, 其特征在于, 所述更新后的特征向量包括 一个第一标记符号的字向量和一个第二标记符号的字向量。 8.一种实体关系抽取系统, 其特征在于, 所述系统包括处理器和非瞬时性计算机可读 存储介质, 所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序, 所权 利 要 求 书 1/2 页 2 CN 115186669 A 2述至少一条指 令或所述至少一段程序由处理器加载并执行以实现如权利要求 1‑7中任意一 项所述的抽取 方法。权 利 要 求 书 2/2 页 3 CN 115186669 A 3

.PDF文档 专利 一种实体关系抽取方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体关系抽取方法及系统 第 1 页 专利 一种实体关系抽取方法及系统 第 2 页 专利 一种实体关系抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:01:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。