(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211039005.6
(22)申请日 2022.08.29
(71)申请人 网经科技 (苏州) 有限公司
地址 215021 江苏省苏州市工业园区金鸡
湖大道13 55号国际科技园一期
(72)发明人 刘继明 孟亚磊 胡磊 金宁
陈浮
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 王玉国
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
融合数据扩充与课程学习的小样本文本分
类方法
(57)摘要
本发明公开了融合数据扩充与课程学习的
小样本文本分类方法, 先用策略对已标注样本集
进行数据扩充, 再根据扩充样 本的改变程度划分
数据集, 继而构建神经网络分类器并训练分类模
型, 最后使用训练得到的模型对新的样本进行分
类。 对学习方法进行改进和重构, 一方面采用多
种策略进行数据扩充, 另一方面将样本按照变化
程度从小到大对样本划分等级, 并且在学习过程
中采用课程学习的策略从易到难 逐步学习, 分类
准确率方面显著提高。
权利要求书2页 说明书7页 附图1页
CN 115455182 A
2022.12.09
CN 115455182 A
1.融合数据扩充与课程学习的小样本文本分类方法, 其特 征在于: 包 含以下步骤:
1)用策略对已标注样本集进行 数据扩充;
2)根据扩充样本的改变程度划分数据集;
3)构建神经网络分类 器并训练分类模型;
4)使用训练得到的模型对新的样本进行分类。
2.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法, 其特征在
于: S1)用策略对已标注样本集进行 数据扩充, 所述策略为以下 数据扩充策略或其组合:
(一)词等价替换, 从原句中选取1个或多个非停用词语, 随机选择其同近义词或上下位
概念替换;
(二)词随机替换, 从原句中选取1个或多个词语, 用词汇 表中随机 选取的词替换;
(三)词随机交换, 随机 选择原句中的两个词语并交换位置, 执 行1次或多次;
(四)随机插入, 从原句中选取1个或多个非停用词语, 随机选择其同近义词或上下位概
念, 插入到句子中的随机位置;
(五)随机删除, 以一比例从句子中抽取任意词执 行删除;
(六)来回翻译, 将原句翻译为另一种语言, 再翻译回原语言, 根据需要, 可经过两轮以
上的翻译步骤得到原句的另一种表达;
(七)句式变换, 主动句变为被动句、 直接表达变为间接 /委婉表达 。
3.根据权利要求2所述的融合数据扩充与课程学习的小样本文本分类方法, 其特征在
于: 通过策略的单独使用或组合使用, 在原样本基础上生成出几倍或十几倍带有差异的变
体样本; 经 过数据扩充处 理得到多条不同形式的变 体。
4.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法, 其特征在
于: S2)根据扩充样 本的改变程度划分数据集, 经过步骤S1)获得原始样 本变体后, 为达到更
好的学习效果, 将 样本变体按照改变程度分组并按顺序安 排机器学习进度, 步骤如下:
S21)计算样本变 体与原样本的编辑距离;
编辑距离又称Levenshtein距离, 是度 量两个字符串差异程度的量化指标, 指的是至少
需要多少次编辑操作能从一个字符串变 成另一个字符串; 其 允许的基本编辑操作包括插入
一个字符、 删除一个字符、 将一个字符替换为另一个字符;
S22)计算样本变 体相对原样本的改变系数;
在同等编辑距离改变的情况下, 较长的句子能容许较多字符的变动而保持语义一致,
而较短的句 子容易发生语义变化; 为更好地度量样本相对原句的改变程度, 需要将句 子长
度纳入考虑; 引入改变系数g, 可由公式(1)计算得到;
g(Sen0, Sen1)= Lev(Sen0, Sen1)/Len(sen0) 公式(1)
其中Lev(S en0, Sen1)为两个样本的编辑距离, Len(sen0)为S en0的句子长度, 句子中包
含的字数;
S23)按照改变系数及其分布将 样本变体划分为若干等级;
划分等级时, 如果有些范围样本稀少, 则可忽视这些孤立样本, 最后将这些超范围样本
合并到邻近的等级中;
S24)在各等级的样本变 体中进行类别均衡化;
通过策略对各等级的样本变体进行类别均衡化处理, 使得各类别样本数大致相当; 如权 利 要 求 书 1/2 页
2
CN 115455182 A
2在某些等级中, 有些类别的样本偏多, 可随机剔除一部分备用; 有些类别的样本数量偏少,
则可重复步骤S1)适当增补, 最终可获得 K个不同改变等级的变 体样本集用于模型 学习;
S25)将样本集划分为训练集、 验证集与测试集;
在模型训练前, 根据功能对数据进行切分, 可按比例从各类别随机选择样本构成训练
集、 验证集与测试集。
5.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法, 其特征在
于: S3)构建神经网络分类器并训练分类模型, 分类器使用多层感知器神经网络, 或带有卷
积层的神经网络构建,按如下 结构搭建神经网络:
输入层: 是样本的向量表示,选择BERT、 Rober ta预训练语言模型获取样本语句的向量;
中间层: 使用带有20 0个隐藏单 元的隐含层以及一个概 率p=0.4的dropout层;
最终线性层: 有40个隐藏单 元。
6.根据权利要求1或5所述的融合数据扩充与课程学习的小样本文本分类方法, 其特征
在于: 训练分类模型包括如下步骤:
S31)在原 始样本上 执行一遍模型训练;
训练过程可采用三元组损失模式, 即给定一个三元组, 锚点m, 正样本z, 负样本f, 网络
的总损失由公式(2)计算得到:
其中d(m,z)、 d(m,f)表示两个样本输入编码的距离, 采用余弦距离; α是给正负样本对
强制赋予的一个区分间隔; 总损失L oss是每个三元组损失的总和;
三元组的采样方案采取两种策略: 分别是随机抽样和困难样本挖掘, 困难样本挖掘就
是筛选d(m,z)+α >d(m,f)的样本, 从数据集中选择1个样本作为锚点, 在其同一类别中选择
另一个作为正样本, 在其他类别所有样本中随机选择一个作为负样本 即可构造一个三元组
作为学习 单元; 通过损失函数 的约束, 网络学习不断更新参数使每个锚点与正样本的距离
尽量接近, 而该锚点与负样本尽量远, 从而使数据集的样本分布呈现各个类别样本之间保
持一定的距离, 而同类样本则近距离聚集的特点;
S32)在最低改变等级的变 体样本集上继续训练模型;
在原始样本构 成的训练集上进行步骤S31)之后, 使用改变等级最低的变体样本集继续
训练模型, 优化网络参数; 这一部分样本集相对原样本的字词变化, 相当于引入了噪声, 增
加模型分类的难度;
S33)在更高改变等级的变 体样本集上继续训练模型, 直到所有训练集均使用完毕;
步骤S32)之后, 使用改变等级更高的变体样本集继续训练模型, 优化网络参数; 随着样
本集相对原样本的改变越来越大, 分类的难度逐渐提高, 有助于提高模型的泛化能力, 在所
有等级的变 体样本均学习之后, 完成模型训练过程。
7.根据权利要求1所述的融合数据扩充与课程学习的小样本文本分类方法, 其特征在
于: S4)使用训练得到的模 型对新的样 本进行分类, 经过步骤S 3)循序渐进的学习过程, 模 型
充分学到同一类别内部各样本的共同特征以及不同类别样本的主要区分特征; 在模型对新
接到的待预测样本时, 分类器首先找到与当前样本距离最接近的训练样本, 并返回该训练
样本对应的类别标签。权 利 要 求 书 2/2 页
3
CN 115455182 A
3
专利 融合数据扩充与课程学习的小样本文本分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:16:04上传分享