iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211056872.0 (22)申请日 2022.08.31 (71)申请人 海尔优家智能科技 (北京) 有限公司 地址 100086 北京市海淀区知春路10 6号太 平洋国际大厦6层6 01-606室 申请人 青岛海尔科技有限公司   海尔智家 股份有限公司 (72)发明人 雷丽莉  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 李文清 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/211(2020.01) G06F 40/284(2020.01)G06F 40/289(2020.01) G06F 16/35(2019.01) (54)发明名称 实体抽取方法、 实体抽取装置、 存储介质及 电子装置 (57)摘要 本申请公开了一种实体抽取方法、 实体抽取 装置、 存储介质及电子装置, 涉及智能家居/智慧 家庭、 自然语言技术领域, 该方法基于初始词典 对多条语料进行分词, 分别得到对应的第一分词 结果; 然后基于各第一分词结果以及种子实体的 目标词根, 对多条语料进行分类, 得到每条语料 的类别; 最后基于第一类语料对应的第一分词结 果中的第一类词语及其前一词语, 确定第一类语 料中的实体。 该方法通过对语料进行分类并结合 第一分词结果中的第一类词语及其前一词语, 即 可快速准确地实现对第一类语料的实体抽取。 抽 取过程中并不需要引入模型, 不仅降低抽取过程 对资源算力的要求, 也不需要为训练模型而对训 练样本进行标注, 避免大量的人力消耗, 节约实 体抽取成本 。 权利要求书3页 说明书19页 附图3页 CN 115310451 A 2022.11.08 CN 115310451 A 1.一种实体抽取 方法, 其特 征在于, 包括: 获取多条语料, 并基于包含有种子实体的初始词典对所述多条语料进行分词, 分别得 到每条语料对应的第一分词结果; 所述种子实体为预 先确定的标准实体; 基于每条语料对应的第 一分词结果以及所述种子实体的目标词根, 对所述多条语料进 行分类, 得到每条语料的类别; 对于所述多条语料中的第 一类语料, 基于所述第 一类语料对应的第 一分词结果中的第 一类词语及所述第一类词语的前一词语, 确定所述第一类 语料中的实体; 其中, 所述第 一类语料为对应的第 一分词结果中包含有由所述目标词根构 成的第一类 词语的语料。 2.根据权利要求1所述的实体抽取方法, 其特征在于, 所述基于所述第 一类语料对应的 第一分词结果中的第一类词语及所述第一类词语的前一词语, 确定所述第一类语料中的实 体, 包括: 基于第一匹配语句, 确定所述第一类语料中的实体, 并对所述第一类语料中的实体进 行标注; 其中, 所述第一匹配 语句基于所述第一类词语及所述前一词语确定 。 3.根据权利要求1所述的实体抽取方法, 其特征在于, 所述基于每条语料对应的第 一分 词结果以及所述种子实体的目标词根, 对所述多 条语料进行分类, 得到每条语料的类别, 之 后还包括: 对于所述多条语料中的第 二类语料, 基于所述第 二类语料对应的第 一分词结果中的第 二类词语, 确定所述第二类 语料中的实体; 其中, 所述第 二类语料为对应的第 一分词结果中包含有以所述目标词根作为词根的第 二类词语的语料。 4.根据权利要求3所述的实体抽取方法, 其特征在于, 所述基于每条语料对应的第 一分 词结果以及所述种子实体的目标词根, 对所述多 条语料进行分类, 得到每条语料的类别, 之 后还包括: 对于所述多条语料中的第 三类语料, 确定所述第 三类语料对应的第 一分词结果中的指 定词语, 并基于所述指定词语, 确定所述第三类 语料中的实体; 其中, 所述第 三类语料为对应的第 一分词结果中不包含有所述第 一类词语或所述第 二 类词语的语料; 所述指定词语包括所述第一类语料中的实体的第一上下文词语, 和/或, 所 述第二类 语料中的实体的第二上 下文词语。 5.根据权利要求4所述的实体抽取方法, 其特征在于, 所述第 一上下文词语包括第 一上 文词语和第一下文词语; 所述基于所述指定词语, 确定所述第三类 语料中的实体, 包括: 基于所述第 一类语料中的实体, 对所述初始词典进行更新, 得到第一词典, 并基于所述 第一词典, 对所述第三类 语料进行分词, 得到第二分词结果; 将所述第一上文词语以及所述第 一下文词语与 所述第二分词结果中的词语进行匹配, 并确定所述第二分词结果中所述第一上文词语与所述第一下文词语之 间的第一字段, 基于 所述第一字段, 确定所述第三类 语料中的实体。 6.根据权利要求5所述的实体抽取方法, 其特征在于, 所述将所述第 一上文词语以及所权 利 要 求 书 1/3 页 2 CN 115310451 A 2述第一下文词语与所述第二分词结果中的词语进 行匹配, 并确定所述第二分词结果中所述 第一上文词语与所述第一下文词语之间的第一字段, 基于所述第一字段, 确定所述第三类 语料中的实体, 包括: 基于第二匹配语句, 确定所述第三类语料中的实体, 并对所述第三类语料中的实体进 行标注; 其中, 所述第二匹配 语句基于所述第一上文词语以及所述第一下文词语确定 。 7.根据权利要求5所述的实体抽取方法, 其特征在于, 所述第 二上下文词语包括第 二上 文词语和第二下文词语; 所述基于所述第一字段, 确定所述第三类 语料中的实体, 包括: 将所述第二上文词语以及所述第二下文词语与所述第三类语料对应的第一分词结果 中的词语进行匹配, 并确定所述第三类语料对应的第一分词结果中所述第二上文词语与所 述第二下文词语之间的第二字段; 基于所述第一字段以及所述第二字段, 确定所述第三类 语料中的实体。 8.根据权利要求7所述的实体抽取方法, 其特征在于, 所述基于所述第 一字段以及所述 第二字段, 确定所述第三类 语料中的实体, 包括: 将所述第一字段与 所述第二字段均作为所述第 三类语料中的实体, 基于所述第 三类语 料中的实体, 对所述第一词典进行更新, 得到第二词典, 并基于所述第二词典, 对所述第三 类语料进行分词, 得到第三分词结果; 若所述第三分词结果中的实体存在新的上下文词语, 则将所述新的上下文词语中的上 文词语以及下文词语与所述第三分词结果中的词语进 行匹配, 并确定所述第三分词结果中 所述新的上下文词语中的上文词语以及下文词语之间的第三字段, 基于所述第三字段, 确 定所述第三类 语料中的新增实体; 基于所述新增实体, 迭代执行上述的词典更新操作以及语料分词操作, 直至所述新增 实体为空。 9.根据权利要求1至8中任一项所述的实体抽取方法, 其特征在于, 所述基于每条语料 对应的第一分词结果以及所述种子实体的目标词根, 对所述多条语料进行分类, 得到每条 语料的类别, 包括: 判断每条语料对应的第 一分词结果中是否包含有由所述目标词根构 成的第一类词语, 或以所述目标词根作为词根的第二类词语; 对于任一条语料, 若所述任一条语料对应的第一分词结果中包含有所述第一类词语, 则确定所述任一条语料为第一类 语料; 若所述任一条语料对应的第 一分词结果中包含有所述第 二类词语, 则确定所述任一条 语料为第二类 语料; 若所述任一条语料对应的第一分词结果中不包含有所述第一类词语或所述第二类词 语, 则确定所述任一条语料为第三类 语料。 10.一种计算机可读的存储介质, 其特征在于, 所述计算机可读的存储介质包括存储的 程序, 其中, 所述 程序运行时执 行权利要求1至9中任一项所述的实体抽取 方法。 11.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为通过所述计算机程序执行权利要求 1至9中任一项所述的实体抽取权 利 要 求 书 2/3 页 3 CN 115310451 A 3

.PDF文档 专利 实体抽取方法、实体抽取装置、存储介质及电子装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体抽取方法、实体抽取装置、存储介质及电子装置 第 1 页 专利 实体抽取方法、实体抽取装置、存储介质及电子装置 第 2 页 专利 实体抽取方法、实体抽取装置、存储介质及电子装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。