专利 基于Transformer网络的文本处理方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211165132.0 (22)申请日 2022.09.23 (71)申请人南京大学地址 210023 江苏省南京市栖霞区仙林大道163号 (72)发明人王中风　周晨晨　路思远　林军　 (74)专利代理机构北京弘权知识产权代理有限公司 11363 专利代理师逯长明　朱炎 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Transformer网络的文本处理方法及系统 (57)摘要本申请涉及自然语言处理技术领域，提供一种基于Transformer网络的文本处理方法及系统，在当前次编码计算后，更新一个数据批内每条输入文本的已编码次数，并分别判断每条输入文本是否可以提前退出，以及，分别判断每条输入文本的已编码次数是否达到预设的最大计算层数，如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数，则用待处理文本更新对应的输入文本，对数据批内的各输入条文本进行下一次编码计算，其中，每次编码计算均采用相同参数的编码器。基于编码器参数的复用，以及对输入文本的循环填充，使得GPU上模型同时处理的文本数量恒定在数据批大小，有效兼容提前退出机制和数据批大小大于1。权利要求书2页说明书8页附图3页 CN 115455979 A 2022.12.09 CN 115455979 A 1.一种基于Transformer网络的文本处理方法，其特征在于，包括：当前次编码计算后，更新一个数据批内每条输入文本的已编码次数；分别判断每条输入文本是否可以提前退出，以及，分别判断每条输入文本的已编码次数是否达到预设的最大计算层数；如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数，则用待处理文本更新对应的输入文本；对数据批内的各输入条文本进行下一次编码计算，其中，每次编码计算均采用相同参数的编码器。 2.根据权利要求1所述的一种基于Transformer网络的文本处理方法，其特征在于，还包括：重复编码计算、判断每条输入文本是否可以提前退出或每条输入文本的已编码次数是否达到预设的最大计算层数，以及用待处理文本更新对应的输入文本，直至所有待处理文本均已得到处理。 3.根据权利要求1所述的一种基于Transformer网络的文本处理方法，其特征在于，所述当前次编码计算后，更新一个数据批内每条输入文本的已编码次数之前，还包括：获取待处理文本集，所述待处理文本集包括多条待处理文本；初始化输入张量集，输入张量集中张量的位置数量为数据批大小，张量的初始值为空；初始化编码次数集，编码次数集中元素的数量为数据批大小，元素用于记录对应输入文本的已编码次数；取出输入张量集中空缺位置数量的待处理文本，得到至少一条输入文本；将输入文本转化的填充张量加入输入张量集中空缺位置；对输入张量集中各张量进行编码计算。 4.根据权利要求3所述的一种基于Transformer网络的文本处理方法，其特征在于，所述更新一个数据批内每条输入文本的已编码次数，包括：将编码次数集中每个元素加1。 5.根据权利要求3所述的一种基于Transformer网络的文本处理方法，其特征在于，所述如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数，则用待处理文本更新对应的输入文本，包括：如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数，则将输入张量集中对应的张量置空，以及，将编码次数集中对应的元素置空；重复所述取出输入张量集中空缺位置数量的待处理文本和所述将输入文本转化的填充张量加入输入张量集中空缺位置。 6.根据权利要求5所述的一种基于Transformer网络的文本处理方法，其特征在于，还包括：如果输入文本未能提前退出且已编码次数未达到预设的最大计算层数，则直接进行下一次编码计算。 7.一种基于Transformer网络的文本处理系统，其特征在于，包括：更新编码次数模块，用于当前次编码计算后，更新一个数据批内每条输入文本的已编码次数；判断模块，用于分别判断每条输入文本是否可以提前退出，以及，分别判断每条输入文权　利　要　求　书 1/2 页 2 CN 115455979 A 2本的已编码次数是否达到预设的最大计算层数；更新输入文本模块，用于如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数，则用待处理文本更新对应的输入文本；下一次编码计算模块，用于对数据批内的各输入条文本进行下一次编码计算，其中，每次编码计算均采用相同参数的编码器。 8.根据权利要求7所述的一种基于Transformer网络的文本处理系统，其特征在于，还包括重复编码模块，所述重复编码模块用于重复编码计算、判断每条输入文本是否可以提前退出或每条输入文本的已编码次数是否达到预设的最大计算层数，以及用待处理文本更新对应的输入文本，直至所有待处理文本均已得到处理。 9.根据权利要求7所述的一种基于Transformer网络的文本处理系统，其特征在于，还包括：获取模块，用于获取待处理文本集，所述待处理文本集包括多条待处理文本；初始化张量模块，用于初始化输入张量集，输入张量集中张量的位置数量为数据批大小，张量的初始值为空；初始化编码次数模块，用于初始化编码次数集，编码次数集中元素的数量为数据批大小，元素用于记录对应输入文本的已编码次数，元素的初始值为空；文本输入模块，用于取出输入张量集中空缺位置数量的待处理文本，得到至少一条输入文本；填充文本模块，用于将输入文本转化的填充张量加入输入张量集中空缺位置；当前编码计算模块，用于对输入张量集中各张量进行编码计算。 10.根据权利要求9所述的一种基于Transformer网络的文本处理系统，其特征在于，所述更新输入文本模块进一步被配置为：如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数，则将输入张量集中对应的张量置空，以及，将编码次数集中对应的元素置空；重复所述取出输入张量集中空缺位置数量的待处理文本和所述将输入文本转化的填充张量加入输入张量集中空缺位置。权　利　要　求　书 2/2 页 3 CN 115455979 A 3

专利 基于Transformer网络的文本处理方法及系统

专利基于Transformer网络的文本处理方法及系统