iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211082692.X (22)申请日 2022.09.06 (71)申请人 中国人民解 放军军事科学院系统工 程研究院 地址 100141 北京市丰台区丰 体南路2号院 (72)发明人 杨健 肖刚 沈玉龙 袁皓  黄伟春  (74)专利代理 机构 北京融智邦 达知识产权代理 事务所(普通 合伙) 11885 专利代理师 吴强 (51)Int.Cl. G06N 5/02(2006.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/237(2020.01)G06F 16/903(2019.01) (54)发明名称 一种预训练语 言模型实体知识注入方法、 系 统及装置 (57)摘要 本发明提供了一种预训练语言模型实体知 识注入方法、 系统及装置, 涉及人工智 能技术领 域, 所述方法包括: 通过对字符串相似度的计算, 得到实体名称; 通过预训练语言模 型编码实体语 义, 构建实体向量表; 构建实体注入的训练样本; 通过对比学习的方式, 向预训练语 言模型注入实 体知识。 通过上述方法, 解决了装备等领域中实 体由于领域术语独特性 以及存在别名而导致的 实体稀疏问题, 提升了预训练语言模 型对于实体 语义的学习效率, 实现了符号知识向量化, 进而 可以将装备等领域中的实体知识注入至所述预 训练语言模型中。 权利要求书1页 说明书7页 附图3页 CN 115423098 A 2022.12.02 CN 115423098 A 1.一种预训练语言模型实体知识注入方法, 其特征在于, 包括: 通过对字符串相似度的 计算, 得到实体名称; 通过预训练语言模型编码实体语义, 构建实体 向量表; 构建实体注入 的训练样本; 通过对比学习的方式, 向预训练语言模型注入实体知识。 2.根据权利要求1所述的预训练语言模型实体知识注入方法, 其特征在于, 所述实体名 称包括领域 术语及其别名, 由中文、 英文和/或标点符号组成。 3.根据权利要求2所述的预训练语言模型实体知识注入方法, 其特征在于, 对字符串相 似度的计算包括通过相似度算法计算所述领域术语与文本语料中指称项的相似度, 当所述 相似度大于预设阈值时, 将所述指称项作为当前 领域术语的别名。 4.根据权利要求1所述的预训练语言模型, 其特征在于, 所述预训练语言模型以编码器 作为模型结构, 所述编码器包括自注意层和全连接层, 所述自注意力层通过自注意力机制 实现对文本语料的单向关注。 5.根据权利要求4所述的通过自注意力 机制实现对文本语料的单向关注, 其特征在于, 所述单向关注是指通过计算下文表示向量与上文表示向量的相似度, 能得到下文对上文的 关注权重, 而不能得到上文对下文的关注权 重。 6.根据权利要求1所述的实体向量表, 其特征在于, 所述预训练语言模型基于实体的描 述文本编码语义, 为每 个实体生成一个表示向量。 7.根据权利要求1所述的构建实体注入的训练样本, 其特征在于, 所述训练样本包括三 元组, 所述 三元组包括文本指称项表示向量、 正例实体表示向量和负例实体表示向量。 8.根据权利要求7所述的训练样本, 其特征在于, 所述文本指称项表示向量是与文本指 称项对应的若干个子词表示向量经过加权求和得到的表示向量; 所述正例实体表示向量是 指从实体向量表中抽取, 与文本指称项经过字符串对齐的实体表示向量; 所述负例实体表 示向量是指从实体向量表中抽取, 与文本指称项无关的实体表示向量。 9.一种用于权利要求1~8任一所述预训练语言模型实体知识注入方法的预训练语言 模型实体知识注入装置, 其特征在于, 所述装置包括处理器、 存储器、 总线, 所述存储器存储 可由处理器读取 的指令及数据; 所述处理器用于调用所述存储器中的指令及数据; 所述总 线连接各功能部件之间传送信息 。 10.一种预训练语言模型实体知识注入系统, 其特征在于, 包括数据接收模块、 数据处 理模块和模型输出模块: 所述数据接收模块, 用于 接收包括实体 语义的文本语料; 所述数据处理模块, 包括: 实体名称单元、 预训练语言模型单元、 训练样本单元和对比 学习单元: 所述实体名称单 元, 通过对所述文本语料的字符串 进行相似度计算, 得到实体名称; 所述预训练语言模型单元, 用于存储初始预训练语言模型, 基于实体的描述文本编码 实体语义, 生成实体向量表; 所述训练样本单 元, 用于构建实体注入的训练样本; 所述对比学习单 元, 通过对比学习的方式, 向预训练语言模型注入实体知识; 所述模型输出模块, 用于 输出注入实体知识后的预训练语言模型。权 利 要 求 书 1/1 页 2 CN 115423098 A 2一种预训练语言模型实体知识注入方 法、 系统及装 置 技术领域 [0001]本发明涉及人工智能技术领域, 尤其是涉及一种预训练语言模型实体知识注入方 法、 系统及装置 。 背景技术 [0002]目前, 随着人工智能技术在社会各个领域中的不断应用与推广, 作为其前沿技术 的预训练语言模型已经成为了工业界和学术界的主流研究方向。 预训练语言模型通过自监 督的方式从大规模文本语料中学习上下文中相关词的表示向量, 所述表示向量蕴含了一般 性的语法、 语义等知识, 经过微调后的模型能够适用于语义理解型和文本生成型 的下游任 务。 [0003]尽管基于深度学习的预训练语言模型具有强大的表征能力, 能够实现语法、 语义 等知识的迁移, 但预训练语言模型必须依赖于大量的文本训练数据进行训练, 而文本训练 数据的长尾分布导致领域 实体稀疏, 这就造成了预训练语言模型难以充分学习领域 实体语 义的问题。 况且在装 备领域中, 术语往往具有很强的专业性, 一个领域的术语常常伴有多种 不同的表达形式。 即便是同一个实体, 在 装备领域的场景下, 也可能表达出和其他通用场景 下完全不同的语义。 这些因素造成了预训练语言模型仍然无法在装备 领域中应用的现状。 [0004]与基于深度学习的预训练语言模型不同, 符号知识具有语义明确、 易于组织、 可解 释性强、 直观并且便于人类理解的特性。 为此, 符号知识的引入能够为预训练语言模型提供 更加丰富、 全面的信息, 克服预训练语言模型 由于训练数据长尾分布的限制而造成的难以 学习装备领域实体的语义, 以及模型鲁棒性差的问题。 但是符号知识与表示向量具有不同 的空间结构, 如何向预训练语言模型引入符号知识成为了一大难题。 发明内容 [0005]本发明的目的在于提供一种预训练语言模型实体知识注入方法、 系统及装置, 以 解决现有技 术中存在的至少一种上述 技术问题。 [0006]为解决上述技术问题, 本发明提供的预训练语言模型实体知识注入方法, 包括: 通 过对字符串相似度的计算, 从文本语料中得到实体名称; 通过预训练语言模型编码实体语 义, 构建实体 向量表; 构建实体注入的训练样本; 通过对比学习的方式, 向预训练语言模型 注入实体知识。 [0007]进一步地, 所述实体名称包括领域术语及其别名, 由中文、 英文和/或标点符号组 成。 [0008]进一步地, 对字符串相似度的计算包括通过相似度算法计算所述领域术语与文本 语料中指称项的相似度, 当所述相似度大于预设阈值时, 将所述指称项作为当前领域术语 的别名。 [0009]优选的, 所述相似度算法为莱文斯坦算法, 当然还可以采用本领域公知的其他算 法, 以达到相同的技 术目的。说 明 书 1/7 页 3 CN 115423098 A 3

PDF文档 专利 一种预训练语言模型实体知识注入方法、系统及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种预训练语言模型实体知识注入方法、系统及装置 第 1 页 专利 一种预训练语言模型实体知识注入方法、系统及装置 第 2 页 专利 一种预训练语言模型实体知识注入方法、系统及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。