iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211165132.0 (22)申请日 2022.09.23 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 王中风 周晨晨 路思远 林军  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 逯长明 朱炎 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Transformer网络的文本处理方法及系 统 (57)摘要 本申请涉及自然语 言处理技术领域, 提供一 种基于Transformer网络的文本处理方法及系 统, 在当前次编码计算后, 更新一个数据批内每 条输入文本的已编码次数, 并分别判断每条输入 文本是否可以提前退出, 以及, 分别判断每条输 入文本的已编码次数是否达到预设的最大计算 层数, 如果存在输入文本可以提前退出或已编码 次数达到 预设的最大计算层数, 则用待处理文本 更新对应的输入文本, 对数据批内的各输入条文 本进行下一次编码计算, 其中, 每次编码计算均 采用相同参数的编码器。 基于编码器参数的复 用, 以及对输入文本的循环填充, 使得GPU上模型 同时处理的文本数量恒定在数据批大小, 有效兼 容提前退出机制和数据批大小大于1。 权利要求书2页 说明书8页 附图3页 CN 115455979 A 2022.12.09 CN 115455979 A 1.一种基于Transformer网络的文本处 理方法, 其特 征在于, 包括: 当前次编码计算后, 更新 一个数据批内每条输入文本的已编码次数; 分别判断每条输入文本是否可以提前退出, 以及, 分别判断每条输入文本的已编码次 数是否达到预设的最大计算层数; 如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数, 则用待处理 文本更新对应的输入文本; 对数据批内的各输入条文本进行下一次编码计算, 其中, 每次编码计算均采用相同参 数的编码器。 2.根据权利要求1所述的一种基于Transformer网络的文本处理方法, 其特征在于, 还 包括: 重复编码计算、 判断每条输入文本是否可以提前退出或每条输入文本的已编码次数是 否达到预设的最大计算层数, 以及用待处理文本更新对应的输入文本, 直至所有待处理文 本均已得到处 理。 3.根据权利要求1所述的一种基于Transformer网络的文本处理方法, 其特征在于, 所 述当前次编码计算后, 更新 一个数据批内每条输入文本的已编码次数之前, 还 包括: 获取待处 理文本集, 所述待处 理文本集包括多条待处 理文本; 初始化输入张量 集, 输入张量 集中张量的位置数量 为数据批大小, 张量的初始值 为空; 初始化编码次数集, 编码次数集中元素的数量为数据批大小, 元素用于记录对应输入 文本的已编码次数; 取出输入张量 集中空缺 位置数量的待处 理文本, 得到 至少一条输入文本; 将输入文本转 化的填充张量加入输入张量 集中空缺 位置; 对输入张量 集中各张量进行编码计算。 4.根据权利要求3所述的一种基于Transformer网络的文本处理方法, 其特征在于, 所 述更新一个数据批内每条输入文本的已编码次数, 包括: 将编码次数集中每 个元素加1。 5.根据权利要求3所述的一种基于Transformer网络的文本处理方法, 其特征在于, 所 述如果存在输入文本可以提前退出或已编 码次数达到预设的最大计算层数, 则用待处理文 本更新对应的输入文本, 包括: 如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数, 则将输入 张 量集中对应的张量置空, 以及, 将编码次数集中对应的元 素置空; 重复所述取出输入张量集中空缺位置数量的待处理文本和所述将输入文本转化的填 充张量加入输入张量 集中空缺 位置。 6.根据权利要求5所述的一种基于Transformer网络的文本处理方法, 其特征在于, 还 包括: 如果输入文本未能提前退出且已编码次数未达到预设的最大计算层数, 则直接进行 下一次编码计算。 7.一种基于Transformer网络的文本处 理系统, 其特 征在于, 包括: 更新编码次数模块, 用于当前次编码计算后, 更新一个数据批内每条输入文本的已编 码次数; 判断模块, 用于分别判断每条输入文本是否可以提前退出, 以及, 分别判断每条输入文权 利 要 求 书 1/2 页 2 CN 115455979 A 2本的已编码次数 是否达到预设的最大计算层数; 更新输入文本模块, 用于如果存在输入文本可以提前退出或已编码次数达到预设的最 大计算层数, 则用待处 理文本更新对应的输入文本; 下一次编码计算模块, 用于对数据批内的各输入条文本进行下一 次编码计算, 其中, 每 次编码计算均采用相同参数的编码器。 8.根据权利要求7所述的一种基于Transformer网络的文本处理系统, 其特征在于, 还 包括重复编码模块, 所述重复编码模块用于重复编码计算、 判断每条输入文本是否可以提 前退出或每条输入文本的已编 码次数是否达到预设的最大计算层数, 以及用待处理文本更 新对应的输入文本, 直至所有 待处理文本均已得到处 理。 9.根据权利要求7所述的一种基于Transformer网络的文本处理系统, 其特征在于, 还 包括: 获取模块, 用于获取待处 理文本集, 所述待处 理文本集包括多条待处 理文本; 初始化张量模块, 用于初始化输入张量集, 输入张量集中张量的位置数量为数据批大 小, 张量的初始值 为空; 初始化编码次数模块, 用于初始化编码次数集, 编码次数集中元素的数量为数据批大 小, 元素用于记录对应输入文本的已编码次数, 元 素的初始值 为空; 文本输入模块, 用于取出输入张量集中空缺位置数量的待处理文本, 得到至少一条输 入文本; 填充文本模块, 用于将输入文本转 化的填充张量加入输入张量 集中空缺 位置; 当前编码计算模块, 用于对输入张量 集中各张量进行编码计算。 10.根据权利要求9所述的一种基于Transformer网络的文本处理系统, 其特征在于, 所 述更新输入文本模块进一 步被配置为: 如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数, 则将输入 张 量集中对应的张量置空, 以及, 将编码次数集中对应的元 素置空; 重复所述取出输入张量集中空缺位置数量的待处理文本和所述将输入文本转化的填 充张量加入输入张量 集中空缺 位置。权 利 要 求 书 2/2 页 3 CN 115455979 A 3

PDF文档 专利 基于Transformer网络的文本处理方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer网络的文本处理方法及系统 第 1 页 专利 基于Transformer网络的文本处理方法及系统 第 2 页 专利 基于Transformer网络的文本处理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。