专利 模型训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211177032.X (22)申请日 2022.09.26 (71)申请人维沃移动通信有限公司地址 523863 广东省东莞市长安镇维沃路1 号 (72)发明人桑成　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师张睿 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称模型训练方法及装置 (57)摘要本申请公开了一种模型训练方法及装置，属于人工智能技术领域。该方法包括：获取多组训练样本，所述训练样本包含N个训练子样本；将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器，输出摘要语义向量和扰动摘要语义向量；将所述摘要语义向量和扰动摘要语义向量输入所述预设生成对抗网络模型中的判别器，输出正样本数据和负样本数据；基于所述正样本数据中的扰动摘要语义向量，输出摘要信息样本；根据生成器损失、判别器损失和交叉熵损失调整所述预设生成对抗网络模型，直至所述预设生成对抗网络模型满足预设训练条件，得到摘要生成模型。权利要求书3页说明书15页附图4页 CN 115409172 A 2022.11.29 CN 115409172 A 1.一种模型训练方法，其特征在于，包括：获取多组训练样本，所述训练样本包含N个训练子样本，每个所述训练子样本包括：正文数据样本，所述正文数据样本对应的正文评论数据样本和摘要标签，所述N个训练子样本中的正文数据样本相同；将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器，输出摘要语义向量和扰动摘要语义向量；将所述摘要语义向量和扰动摘要语义向量输入所述预设生成对抗网络模型中的判别器，输出正样本数据和负样本数据，其中，所述正样本数据包括一个所述训练子样本生成的摘要语义向量和扰动摘要语义向量，所述负样本数据包括M个所述训练子样本生成的摘要语义向量和扰动摘要语义向量， N 为正整数， M为大于2的正整数；基于所述正样本数据中的扰动摘要语义向量，输出摘要信息样本；根据生成器损失、判别器损失和交叉熵损失调整所述预设生成对抗网络模型，直至所述预设生成对抗网络模型满足预设训练条件，得到摘要生成模型；其中，所述生成器损失是基于所述对抗生成器的生成器损失函数与所述摘要语义向量和扰动摘要语义向量确定的，所述判别器损失是基于所述判别器的判别器损失函数与所述正样本数据和负样本数据确定的，所述交叉熵损失是基于交叉熵损失函数与所述摘要信息样本和所述训练子样本的所述摘要标签确定的，所述摘要生成模型用于基于正文数据和所述正文数据对应的一个评论数据，输出摘要信息。 2.根据权利要求1所述的模型训练方法，其特征在于，所述将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器，输出摘要语义向量和扰动摘要语义向量，包括：将所述正文数据样本和所述正文评论数据样本经过编码器编码，得到正文数据样本隐藏状态和正文评论数据样本隐藏状态；将所述正文评论数据样本隐藏状态进行扰动处理，得到扰动评论序列；将所述正文数据样本隐藏状态和所述正文评论数据样本隐藏状态输入第一解码器，生成摘要语义向量，将所述正文数据样本隐藏状态和所述扰动评论序列输入第二解码器，生成扰动摘要语义向量。 3.根据权利要求2所述的模型训练方法，其特征在于，所述将所述正文评论数据样本隐藏状态进行扰动处理，得到扰动评论序列，包括：基于长短期记忆网络对所述正文评论数据样本隐藏状态进行处理，得到评论序列向量；将所述评论序列向量中的目标元素进行掩码处理，得到掩码序列，其中，所述目标元素为评论序列向量中元素排序名次超过预设名次的元素；基于所述掩码序列和所述正文评论数据样本隐藏状态，得到扰动评论序列。 4.根据权利要求1所述的模型训练方法，其特征在于，所述获取多组训练样本，包括：对第一训练样本进行预处理，得到第二训练样本，其中，每个所述第二训练样本包括N 个正文评论数据样本组，每个所述正文评论数据样本组均包括：正文数据样本和所述正文数据样本对应的一个正文评论数据样本；对所述N个正文评论数据样本组进行无监督的摘要分析，获取每个所述正文评论数据权　利　要　求　书 1/3 页 2 CN 115409172 A 2样本组对应的摘要标签；将每个所述正文评论数据样本组和所述正文评论数据样本组对应的摘要标签作为一个训练子样本，获取N个训练子样本；基于多组N个训练子样本，获取多组训练样本。 5.根据权利要求4所述的模型训练方法，其特征在于，所述对第一训练样本进行预处理，得到第二训练样本，包括：获取第一训练样本，其中，所述第一训练样本均包括：正文数据样本和所述正文数据样本对应的K个初始正文评论数据样本；对所述K个初始正文评论数据样本进行主题分析，得到至少一个评论主题；基于每个所述评论主题对应的初始正文评论数据样本的数量，从所述K个初始正文评论数据样本中确定所述第一训练样本对应的正文评论数据样本；基于所述第一训练样本对应的正文评论数据样本和所述正文数据样本，得到第二训练数据，其中， K为正整数。 6.根据权利要求4所述的模型训练方法，其特征在于，对所述N个正文评论数据样本进行无监督的摘要分析，获取每个所述正文评论数据样本对应的摘要标签，包括：获取所述正文数据样本中的每个语句和其它语句的第一相似度，并获取每个语句和所述正文评论数据样本的第二相似度，其中，所述其它语句是所述正文数据样本除所述语句之外的所有语句；将各个所述语句中的目标语句作为所述正文评论数据样本对应的摘要标签，其中，所述目标语句为所述第一相似度和所述第二相似度之和大于第一预设阈值的语句。 7.一种模型训练装置，其特征在于，包括：获取模块，用于获取多组训练样本，所述训练样本包含N个训练子样本，每个所述训练子样本包括：正文数据样本，所述正文数据样本对应的正文评论数据样本和摘要标签，所述 N个训练子样本中的正文数据样本相同；第一输出模块，用于将所述训练样本中的所述训练子样本输入预设生成对抗网络模型中的对抗生成器，输出摘要语义向量和扰动摘要语义向量；第二输出模块，用于将所述N个训练子样本对应的摘要语义向量和扰动摘要语义向量输入所述预设生成对抗网络模型中的判别器，输出正样本数据和负样本数据，其中，所述正样本数据包括一个所述训练子样本生成的摘要语义向量和扰动摘要语义向量，所述负样本数据包括M个所述训练子样本生成的摘要语义向量和扰动摘要语义向量， N为正整数， M为大于2的正整数；第三输出模块，用于基于所述正样本数据中的扰动摘要语义向量，输出摘要信息样本；调整模块，用于根据生成器损失、判别器损失和交叉熵损失调整所述预设生成对抗网络模型，直至所述预设生成对抗网络模型满足预设训练条件，得到摘要生成模型；其中，所述生成器损失是基于所述对抗生成器的生成器损失函数与所述摘要语义向量和扰动摘要语义向量确定的，所述判别器损失是基于所述判别器的判别器损失函数与所述正样本数据和负样本数据确定的，所述交叉熵损失是基于交叉熵损失函数与所述摘要信息样本和所述训练子样本的所述摘要标签确定的，所述摘要生成模型用于基于正文数据和所述正文数据对应的一个评论数据，输出摘要信息。权　利　要　求　书 2/3 页 3 CN 115409172 A 3

专利 模型训练方法及装置

专利模型训练方法及装置