专利 一种预训练语言模型实体知识注入方法、系统及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211082692.X (22)申请日 2022.09.06 (71)申请人中国人民解放军军事科学院系统工程研究院地址 100141 北京市丰台区丰体南路2号院 (72)发明人杨健　肖刚　沈玉龙　袁皓　黄伟春　 (74)专利代理机构北京融智邦达知识产权代理事务所(普通合伙) 11885 专利代理师吴强 (51)Int.Cl. G06N 5/02(2006.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/237(2020.01)G06F 16/903(2019.01) (54)发明名称一种预训练语言模型实体知识注入方法、系统及装置 (57)摘要本发明提供了一种预训练语言模型实体知识注入方法、系统及装置，涉及人工智能技术领域，所述方法包括：通过对字符串相似度的计算，得到实体名称；通过预训练语言模型编码实体语义，构建实体向量表；构建实体注入的训练样本；通过对比学习的方式，向预训练语言模型注入实体知识。通过上述方法，解决了装备等领域中实体由于领域术语独特性以及存在别名而导致的实体稀疏问题，提升了预训练语言模型对于实体语义的学习效率，实现了符号知识向量化，进而可以将装备等领域中的实体知识注入至所述预训练语言模型中。权利要求书1页说明书7页附图3页 CN 115423098 A 2022.12.02 CN 115423098 A 1.一种预训练语言模型实体知识注入方法，其特征在于，包括：通过对字符串相似度的计算，得到实体名称；通过预训练语言模型编码实体语义，构建实体向量表；构建实体注入的训练样本；通过对比学习的方式，向预训练语言模型注入实体知识。 2.根据权利要求1所述的预训练语言模型实体知识注入方法，其特征在于，所述实体名称包括领域术语及其别名，由中文、英文和/或标点符号组成。 3.根据权利要求2所述的预训练语言模型实体知识注入方法，其特征在于，对字符串相似度的计算包括通过相似度算法计算所述领域术语与文本语料中指称项的相似度，当所述相似度大于预设阈值时，将所述指称项作为当前领域术语的别名。 4.根据权利要求1所述的预训练语言模型，其特征在于，所述预训练语言模型以编码器作为模型结构，所述编码器包括自注意层和全连接层，所述自注意力层通过自注意力机制实现对文本语料的单向关注。 5.根据权利要求4所述的通过自注意力机制实现对文本语料的单向关注，其特征在于，所述单向关注是指通过计算下文表示向量与上文表示向量的相似度，能得到下文对上文的关注权重，而不能得到上文对下文的关注权重。 6.根据权利要求1所述的实体向量表，其特征在于，所述预训练语言模型基于实体的描述文本编码语义，为每个实体生成一个表示向量。 7.根据权利要求1所述的构建实体注入的训练样本，其特征在于，所述训练样本包括三元组，所述三元组包括文本指称项表示向量、正例实体表示向量和负例实体表示向量。 8.根据权利要求7所述的训练样本，其特征在于，所述文本指称项表示向量是与文本指称项对应的若干个子词表示向量经过加权求和得到的表示向量；所述正例实体表示向量是指从实体向量表中抽取，与文本指称项经过字符串对齐的实体表示向量；所述负例实体表示向量是指从实体向量表中抽取，与文本指称项无关的实体表示向量。 9.一种用于权利要求1～8任一所述预训练语言模型实体知识注入方法的预训练语言模型实体知识注入装置，其特征在于，所述装置包括处理器、存储器、总线，所述存储器存储可由处理器读取的指令及数据；所述处理器用于调用所述存储器中的指令及数据；所述总线连接各功能部件之间传送信息。 10.一种预训练语言模型实体知识注入系统，其特征在于，包括数据接收模块、数据处理模块和模型输出模块：所述数据接收模块，用于接收包括实体语义的文本语料；所述数据处理模块，包括：实体名称单元、预训练语言模型单元、训练样本单元和对比学习单元：所述实体名称单元，通过对所述文本语料的字符串进行相似度计算，得到实体名称；所述预训练语言模型单元，用于存储初始预训练语言模型，基于实体的描述文本编码实体语义，生成实体向量表；所述训练样本单元，用于构建实体注入的训练样本；所述对比学习单元，通过对比学习的方式，向预训练语言模型注入实体知识；所述模型输出模块，用于输出注入实体知识后的预训练语言模型。权　利　要　求　书 1/1 页 2 CN 115423098 A 2一种预训练语言模型实体知识注入方法、系统及装置技术领域 [0001]本发明涉及人工智能技术领域，尤其是涉及一种预训练语言模型实体知识注入方法、系统及装置。背景技术 [0002]目前，随着人工智能技术在社会各个领域中的不断应用与推广，作为其前沿技术的预训练语言模型已经成为了工业界和学术界的主流研究方向。预训练语言模型通过自监督的方式从大规模文本语料中学习上下文中相关词的表示向量，所述表示向量蕴含了一般性的语法、语义等知识，经过微调后的模型能够适用于语义理解型和文本生成型的下游任务。 [0003]尽管基于深度学习的预训练语言模型具有强大的表征能力，能够实现语法、语义等知识的迁移，但预训练语言模型必须依赖于大量的文本训练数据进行训练，而文本训练数据的长尾分布导致领域实体稀疏，这就造成了预训练语言模型难以充分学习领域实体语义的问题。况且在装备领域中，术语往往具有很强的专业性，一个领域的术语常常伴有多种不同的表达形式。即便是同一个实体，在装备领域的场景下，也可能表达出和其他通用场景下完全不同的语义。这些因素造成了预训练语言模型仍然无法在装备领域中应用的现状。 [0004]与基于深度学习的预训练语言模型不同，符号知识具有语义明确、易于组织、可解释性强、直观并且便于人类理解的特性。为此，符号知识的引入能够为预训练语言模型提供更加丰富、全面的信息，克服预训练语言模型由于训练数据长尾分布的限制而造成的难以学习装备领域实体的语义，以及模型鲁棒性差的问题。但是符号知识与表示向量具有不同的空间结构，如何向预训练语言模型引入符号知识成为了一大难题。发明内容 [0005]本发明的目的在于提供一种预训练语言模型实体知识注入方法、系统及装置，以解决现有技术中存在的至少一种上述技术问题。 [0006]为解决上述技术问题，本发明提供的预训练语言模型实体知识注入方法，包括：通过对字符串相似度的计算，从文本语料中得到实体名称；通过预训练语言模型编码实体语义，构建实体向量表；构建实体注入的训练样本；通过对比学习的方式，向预训练语言模型注入实体知识。 [0007]进一步地，所述实体名称包括领域术语及其别名，由中文、英文和/或标点符号组成。 [0008]进一步地，对字符串相似度的计算包括通过相似度算法计算所述领域术语与文本语料中指称项的相似度，当所述相似度大于预设阈值时，将所述指称项作为当前领域术语的别名。 [0009]优选的，所述相似度算法为莱文斯坦算法，当然还可以采用本领域公知的其他算法，以达到相同的技术目的。说　明　书 1/7 页 3 CN 115423098 A 3

专利 一种预训练语言模型实体知识注入方法、系统及装置

专利一种预训练语言模型实体知识注入方法、系统及装置