(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211135586.3
(22)申请日 2022.09.19
(71)申请人 苏州科技大 学
地址 215513 江苏省苏州市高新区滨河路
298号
申请人 江苏新希望科技有限公司
(72)发明人 皮洲 刘迪 奚雪峰 左严
崔志明
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 王玉国
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
面向长文本自动摘要任务的数据增强系统
及其方法
(57)摘要
本发明涉及面向长文本自动摘要任务的数
据增强系统及方法, 由文本处理模块, 读取数据
进行分词并将其映射到唯一的索引; 由文本表示
模块, 通过文本表示将非数值型文本编码成数值
型数据; 由模型构建模块, 根据摘要任务构建模
型的框架; 由关键信息评分模块, 对通过构建模
型的运算且经过特征提取之后的信息进行评分
排序并进行分类重组; 由解码模块, 将分类重组
的文本生成摘要。 将文本进行数据预处理, 对文
本进行分词, 对一些错误和无用的数据进行剔
除; 通过数据清洗, 有效减少模型训练时间成本 。
权利要求书3页 说明书7页 附图2页
CN 115422931 A
2022.12.02
CN 115422931 A
1.面向长文本自动摘要任务的数据增强系统, 其特征在于: 包含文本处理模块(1)、 文
本表示模块(2)、 模型构建模块(3)、 关键信息 评分模块(4)以及解码模块(5);
所述文本处 理模块(1), 读取 数据进行分词并将其映射到唯一的索引;
所述文本表示模块(2), 通过文本表示将非数值型文本编码成数值型 数据;
所述模型构建模块(3), 根据摘要任务构建模型的框架;
所述关键信息评分模块(4), 对通过构建模型的运算且经过特征提取之后的信息进行
评分排序并进行分类重组;
所述解码模块(5), 将分类重组的文本生成摘要。
2.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述
文本处理模块(1)包含中文词切分模块(101)和数据筛选模块(102), 所述中文词切分词模
块(101), 用于摘要源文本中文分词, 依赖词表将文本中的词语进 行切分, 采用分词工具, 得
到一串词汇序列; 所述数据筛选模块(102), 对分词后所得的数据进 行重新检查数据的一致
性, 处理无效数据与缺失数据。
3.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述
文本表示模块(2), 将文本处理模块(1)处理后的源文本数据采用LSTM模型进行编码, 通过
拼接前向嵌入与后向嵌入表示出字符级单词向量。
4.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述
模型构建模块(3)包含预训练模块(301)和词信息特征提取模块(302); 所述预训练模块
(301), 词向量在 进入特征提取前, 将文本编码后生 成的单词表 示向量采用LSTM预训练模 型
训练生成上下文相关的词向量; 所述词信息特征提取模块(302), 预训练模型生成的上下文
相关的词向量进行运 算, 从词向量 提取关键信息的特 征。
5.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述
关键信息评分模块(4), 将经过模型构建模块(3)的预训练模块(301)和词信息特征提取模
块(302)后的数据进行关键信息提取, 利用LSTM将一个序列经过运算映射成一个中间语义
向量, 并对每 个关键信息进行评分排序。
6.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述
解码模块(5), 将生成的中间语义向量 解码生成最终的摘要。
7.权利要求1所述的系统实现面向长文本自动摘要任务的数据增强方法, 其特征在于:
包括以下步骤:
首先, 将源文本进行文本处 理;
然后, 将文本处理之后的文本数据进行BiLSTM编码, 将生成的字符级词向量序列输入
到LSTM预训练模型模块进行训练, 生成上 下文相关的词向量;
之后, 将词向量输入到模型构建模块(3)进行关键信息的特征提取, 提取到输入文本的
关键信息, 特 征在数学上的表示均是高维向量;
继而, 将特征向量输入关键信息评分模块(4), 提取的中间语义信息通过softmax映射
到对应文本 长度的区间长度的0 /1向量, 这 一向量用来表示文本的关键信息;
最后, 将关键信息 输入到解码模块(5), 生成最终的摘要。
8.根据权利要求7所述的面向长文本自动摘要任务的数据增强方法, 其特征在于: 由文
本处理模块(1), 对源文本进 行中文分词以及 去除停用词; 由文本表 示模块(2), 对文本序列权 利 要 求 书 1/3 页
2
CN 115422931 A
2采用BiLSTM编码; 由模型构建模块(3), 将词向量输入预训练模块形成上下文相关的词向
量, 由词信息特征提取模块(302)进行词向量的特征提取; 由关键信息评分模块(4), 将提取
的特征进行信息 评分; 由解码模块(5), 经信息 评分排序形成源文本的摘要。
9.根据权利要求7所述的面向长文本自动摘要任务的数据增强方法, 其特征在于: 由文
本处理模块(1)的中文词切分模块(101), 对源文本中文本中文分词, 采用分词工具将源文
本中的词语进行 单个字符切分, 形成一串中文词汇序列;
由文本表示模块(2)将文本数据采用BiLSTM编码表示为可理解和处理的编码序列; 通
过记忆门、 遗忘门计算词向量, 并对文本序列的前后词信息及其特征进 行捕捉, 充分学习源
文本上下文长距离的依赖关系, 记 忆门和遗 忘门的计算如下:
计算遗忘门, 为减少计算量, 需遗忘部分的信息, 其输入为上一个时刻的词向量ht‑1, 当
前时刻的输入词向量为xt, Wf为该层权重矩阵用于去除部分冗余信息, bf为该层的偏差矩
阵, σ 为激活函数, 最后输出是遗忘门的值ft, 即为遗忘部分信息之后的词向量, 将其代入 公
式(4);
ft=σ(Wf·[ht‑1, xt+bf]) (1)
计算记忆门, 除了遗忘门还需要对重要的信息进行保留, 输入为前一时刻的词向量
ht‑1, 当前时刻的输入词向量ht‑1, Wf为该层权重矩阵, 然后输出记忆门的值it, 临时状态
其存储的是当前时刻的需要保留记 忆的词向量, 然后将其代入公式(4);
it=σ(Wf·[ht‑1, xt+bi]) (2)
计算当前时刻临时状态的里存储的词向量, 输入为记忆门的词向量it和遗忘门的值ft
作为系数, 临时状态的词向量
上一刻存储的词向量Ct‑1, 并作矩阵乘法, 输出为当前状
态里的词向量 为Ct;
计算输出门和当前时刻的词向量, 输入前一时刻的词向量ht‑1, 当前时刻的输入词xt, 当
前时刻的词向量Ct, Wo为该层权重矩阵, bo为该层的偏 差矩阵, 然后用tanh函数进行运算; 则
有输出门的词向量 值Ot, 隐藏层的词向量 为ht;
Ot=σ(Wo·[ht‑1, xt+bo]) (5)
ht=Ot*tanh(Ct) (6)
计算n轮, 得到与句子 长度相同的词向量序列 {h0, h1, h2......hn‑1};
由模型构建模块(3)的预训练模块(301), 将文本表示后所得的单词表示向量采用LSTM
预训练模 型训练生成上下文相关的词向量; 模 型构建模块(3)的词信息特征提取模块(302)
根据预训练模型生成的上 下文相关的词向量进行运 算, 从词向量 提取关键信息的特 征;
模型构建模块(3)中词信息特征提取模块(302)采用Global Attention, 以结合全局信
息为目的, 在通过LSTM计算后, 在表征上执行注意力机制; transformer模型中的注意机制
是一个函数, 从输入句子中映射出重要和相关的单词, 并为单词赋予更高的权重; 其计算 公
式为(7);权 利 要 求 书 2/3 页
3
CN 115422931 A
3
专利 面向长文本自动摘要任务的数据增强系统及其方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:48上传分享