iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211162125.5 (22)申请日 2022.09.23 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 刘祥龙 魏秀颖 龚睿昊 李莹  吕金虎  (74)专利代理 机构 北京汲智翼成知识产权代理 事务所(普通 合伙) 11381 专利代理师 陈曦 贾兴昌 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 16/35(2019.01) G06F 40/205(2020.01) (54)发明名称 面向自然语言处理的神经网络模型量化方 法和装置 (57)摘要 本发明公开了一种面向自然语言处理的神 经网络模型量化方法和装置。 该方法包括如下步 骤 : 针 对 全 精 度的 预 训练 语 言 模 型中的 LayerNorm结构, 进行缩 放参数的转移, 得到一个 等价的浮点预训练语言模型; 基于少量数据, 使 用基于单词的裁剪步骤在浮点预训练语言模型 的基础上确定裁剪范围; 根据该裁剪范围计算量 化步长, 得到经过量化的预训练语言模型。 利用 本发明, 可以在没有额外计算开销的情况下, 获 得量化程度更好的预训练语言模 型, 从而使所需 的计算开销显著降低, 特别适合边缘设备对低功 耗的需求。 权利要求书1页 说明书7页 附图3页 CN 115238893 A 2022.10.25 CN 115238893 A 1.一种面向 自然语言处 理的神经网络模型量 化方法, 其特 征在于包括如下步骤: (1) 针对全精度的预训练语言模型中的LayerNorm结构, 进行缩放参数的转移, 得到一 个等价的浮点预训练语言模型; (2) 基于少量数据, 使用基于单词的裁剪步骤在步骤 (1) 得到的浮点预训练语言模型的 基础上确定 裁剪范围; (3) 根据步骤 (2) 得到的裁 剪范围计算 量化步长, 得到经 过量化的预训练语言模型。 2.如权利要求1所述的神经网络模型量 化方法, 其特 征在于: 所述步骤 (1) 中, 将LayerNorm结构中的缩放参数抽 取出来, 并转移到后续模块的权重 中。 3.如权利要求2所述的神经网络模型量 化方法, 其特 征在于: 所述后续模块是残差连接模块时, 对于残差连接模块中的线性变换分支, 通过如下公 式吸收被转移的所述缩放 参数: 其中, x表示输入向量, 表示对输入向量起作用的所述缩放参数, 示该线性变换分 支的权重, 代表矩阵的Hadamard积, n为正整数。 4.如权利要求2所述的神经网络模型量 化方法, 其特 征在于: 所述后续模块是残差连接模块时, 对于残差连接模块中的短路分支, 直接乘以所述缩 放参数。 5.如权利要求1所述的神经网络模型量 化方法, 其特 征在于: 所述步骤 (2) 中, 使用每个单词在token处嵌入的最大值作为异常值的代表, 并将每个 单词在to ken处嵌入的最小值作为负数异常值的代 表。 6.如权利要求5所述的神经网络模型量 化方法, 其特 征在于: 所述步骤 (2) 中, 针对所有单词最大值的集合 , 对其枚举裁减的比率, 并且计算对应 裁剪的值。 7.如权利要求6所述的神经网络模型量 化方法, 其特 征在于: 根据α 分位数函数确定所有单词最大值的集 合 的α 百分位 点, 得到裁剪范围的上限; 取所有单词的最小值, 根据α 百分位 点来计算裁 剪范围的下限; 通过裁剪范围的上限和下限计算量化步长s, 并计算相应的损失函数L(s), 最终选取损 失最小的量 化步长。 8.一种面向自然语言处理的神经网络模型量化装置, 其特征在于包括处理器和存储 器, 所述处理器读取所述存储器中的计算机程序, 用于执行权利要求1~7中任意一项所述 的神经网络模型量 化方法。权 利 要 求 书 1/1 页 2 CN 115238893 A 2面向自然语言处理的神经 网络模型量化方 法和装置 技术领域 [0001]本发明涉及 一种面向自然语言处理的神经网络模型量化方法, 同时也涉及相应的 神经网络模型量 化装置, 属于计算语言学技 术领域。 背景技术 [0002]自然语言处理中使用的神经网络主要分两类, 一类是以循环神经网络/长短期记 忆模型为代 表的时序模型, 另一类是以Transformer/BERT为代 表的并行计算模型。 [0003]与循环神经网络相比, Transformer (转换器) 既可以运用 “自注意力 ”(self‑ attention) 机制, 像循环神经网络一样对与当前输出有关 的历史信息进行捕捉, 也可以像 前馈神经网络那样并行地处理当前输入和当前输入附近的所有历史输入, 解决了循环神经 网络信息处理速度较慢的问题。 此外, Transformer也是当下主流的BERT、 GPT、 T5等预训练 语言模型的基石。 但是, 这些预训练语言模型的参数量普遍较大, 需要采用一些模型量化的 技术手段帮助它 们在轻量级设备 上被使用。 [0004]在专利号为ZL  202011470331.3的中国发明专利中, 公开了一种面向多任务的预 训练语言模型自动压缩方法及平台。 该方法设计一种结构生成器的元网络, 基于 Transformer层采样的知识蒸馏方法构建知识蒸馏编码向量, 利用结构生成器生成与当前 输入的编码向量对应的蒸馏结构模型; 同时提出伯努利分布采样的方法训练结构生成器; 每轮迭代时, 利用伯努利分布采样的方式迁移各个编码 器单元, 组成对应的编码向量; 通过 改变输入结构生成器的编 码向量和小批次的训练数据, 联合训练结构生成器和对应的蒸馏 结构, 可以学得能够为不同蒸馏结构生成权重的结构生成器; 同时在已训练好的元学习网 络基础上, 通过进化算法搜索最优压缩结构, 由此得到与任务无关的预训练语言模型 的最 优通用压缩架构。 [0005]另外, 在申请号为202210540113.5的中国发明申请中, 公开了一种基于不确定性 估计知识蒸馏的语言模型压缩方法。 该方法包括如下步骤: 1) 对原始语言模型进行对半压 缩得到压缩后的神经网络; 2) 利用原始语言模型合理初始化压缩后神经网络的参数; 3)添 加前馈网络结构的参数蒸馏损失函数, 设计不确定性估计损失函数及自然语言处理任务的 交叉熵损失函数; 4)利用所设计的损失函数训练压缩后的神经网络模型。 该技术方案降低 了网络压缩训练过程的计算量, 提高了网络压缩率, 加速了网络推理速度, 可广泛应用于模 型部署、 模型压缩 任务, 为硬件资源紧缺的应用场景提供新的模型压缩解决方案 。 发明内容 [0006]本发明所要解决的首要技术问题在于提供一种面向自然语言处理的神经网络模 型量化方法。 [0007]本发明所要解决的另一技术问题在于提供一种面向自然语言处理的神经网络模 型量化装置。 [0008]为了实现上述目的, 本发明采用下述的技 术方案:说 明 书 1/7 页 3 CN 115238893 A 3

.PDF文档 专利 面向自然语言处理的神经网络模型量化方法和装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向自然语言处理的神经网络模型量化方法和装置 第 1 页 专利 面向自然语言处理的神经网络模型量化方法和装置 第 2 页 专利 面向自然语言处理的神经网络模型量化方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:16:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。