iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211135586.3 (22)申请日 2022.09.19 (71)申请人 苏州科技大 学 地址 215513 江苏省苏州市高新区滨河路 298号 申请人 江苏新希望科技有限公司 (72)发明人 皮洲 刘迪 奚雪峰 左严  崔志明  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 王玉国 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 面向长文本自动摘要任务的数据增强系统 及其方法 (57)摘要 本发明涉及面向长文本自动摘要任务的数 据增强系统及方法, 由文本处理模块, 读取数据 进行分词并将其映射到唯一的索引; 由文本表示 模块, 通过文本表示将非数值型文本编码成数值 型数据; 由模型构建模块, 根据摘要任务构建模 型的框架; 由关键信息评分模块, 对通过构建模 型的运算且经过特征提取之后的信息进行评分 排序并进行分类重组; 由解码模块, 将分类重组 的文本生成摘要。 将文本进行数据预处理, 对文 本进行分词, 对一些错误和无用的数据进行剔 除; 通过数据清洗, 有效减少模型训练时间成本 。 权利要求书3页 说明书7页 附图2页 CN 115422931 A 2022.12.02 CN 115422931 A 1.面向长文本自动摘要任务的数据增强系统, 其特征在于: 包含文本处理模块(1)、 文 本表示模块(2)、 模型构建模块(3)、 关键信息 评分模块(4)以及解码模块(5); 所述文本处 理模块(1), 读取 数据进行分词并将其映射到唯一的索引; 所述文本表示模块(2), 通过文本表示将非数值型文本编码成数值型 数据; 所述模型构建模块(3), 根据摘要任务构建模型的框架; 所述关键信息评分模块(4), 对通过构建模型的运算且经过特征提取之后的信息进行 评分排序并进行分类重组; 所述解码模块(5), 将分类重组的文本生成摘要。 2.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述 文本处理模块(1)包含中文词切分模块(101)和数据筛选模块(102), 所述中文词切分词模 块(101), 用于摘要源文本中文分词, 依赖词表将文本中的词语进 行切分, 采用分词工具, 得 到一串词汇序列; 所述数据筛选模块(102), 对分词后所得的数据进 行重新检查数据的一致 性, 处理无效数据与缺失数据。 3.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述 文本表示模块(2), 将文本处理模块(1)处理后的源文本数据采用LSTM模型进行编码, 通过 拼接前向嵌入与后向嵌入表示出字符级单词向量。 4.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述 模型构建模块(3)包含预训练模块(301)和词信息特征提取模块(302); 所述预训练模块 (301), 词向量在 进入特征提取前, 将文本编码后生 成的单词表 示向量采用LSTM预训练模 型 训练生成上下文相关的词向量; 所述词信息特征提取模块(302), 预训练模型生成的上下文 相关的词向量进行运 算, 从词向量 提取关键信息的特 征。 5.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述 关键信息评分模块(4), 将经过模型构建模块(3)的预训练模块(301)和词信息特征提取模 块(302)后的数据进行关键信息提取, 利用LSTM将一个序列经过运算映射成一个中间语义 向量, 并对每 个关键信息进行评分排序。 6.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统, 其特征在于: 所述 解码模块(5), 将生成的中间语义向量 解码生成最终的摘要。 7.权利要求1所述的系统实现面向长文本自动摘要任务的数据增强方法, 其特征在于: 包括以下步骤: 首先, 将源文本进行文本处 理; 然后, 将文本处理之后的文本数据进行BiLSTM编码, 将生成的字符级词向量序列输入 到LSTM预训练模型模块进行训练, 生成上 下文相关的词向量; 之后, 将词向量输入到模型构建模块(3)进行关键信息的特征提取, 提取到输入文本的 关键信息, 特 征在数学上的表示均是高维向量; 继而, 将特征向量输入关键信息评分模块(4), 提取的中间语义信息通过softmax映射 到对应文本 长度的区间长度的0 /1向量, 这 一向量用来表示文本的关键信息; 最后, 将关键信息 输入到解码模块(5), 生成最终的摘要。 8.根据权利要求7所述的面向长文本自动摘要任务的数据增强方法, 其特征在于: 由文 本处理模块(1), 对源文本进 行中文分词以及 去除停用词; 由文本表 示模块(2), 对文本序列权 利 要 求 书 1/3 页 2 CN 115422931 A 2采用BiLSTM编码; 由模型构建模块(3), 将词向量输入预训练模块形成上下文相关的词向 量, 由词信息特征提取模块(302)进行词向量的特征提取; 由关键信息评分模块(4), 将提取 的特征进行信息 评分; 由解码模块(5), 经信息 评分排序形成源文本的摘要。 9.根据权利要求7所述的面向长文本自动摘要任务的数据增强方法, 其特征在于: 由文 本处理模块(1)的中文词切分模块(101), 对源文本中文本中文分词, 采用分词工具将源文 本中的词语进行 单个字符切分, 形成一串中文词汇序列; 由文本表示模块(2)将文本数据采用BiLSTM编码表示为可理解和处理的编码序列; 通 过记忆门、 遗忘门计算词向量, 并对文本序列的前后词信息及其特征进 行捕捉, 充分学习源 文本上下文长距离的依赖关系, 记 忆门和遗 忘门的计算如下: 计算遗忘门, 为减少计算量, 需遗忘部分的信息, 其输入为上一个时刻的词向量ht‑1, 当 前时刻的输入词向量为xt, Wf为该层权重矩阵用于去除部分冗余信息, bf为该层的偏差矩 阵, σ 为激活函数, 最后输出是遗忘门的值ft, 即为遗忘部分信息之后的词向量, 将其代入 公 式(4); ft=σ(Wf·[ht‑1, xt+bf])      (1) 计算记忆门, 除了遗忘门还需要对重要的信息进行保留, 输入为前一时刻的词向量 ht‑1, 当前时刻的输入词向量ht‑1, Wf为该层权重矩阵, 然后输出记忆门的值it, 临时状态 其存储的是当前时刻的需要保留记 忆的词向量, 然后将其代入公式(4); it=σ(Wf·[ht‑1, xt+bi])         (2) 计算当前时刻临时状态的里存储的词向量, 输入为记忆门的词向量it和遗忘门的值ft 作为系数, 临时状态的词向量 上一刻存储的词向量Ct‑1, 并作矩阵乘法, 输出为当前状 态里的词向量 为Ct; 计算输出门和当前时刻的词向量, 输入前一时刻的词向量ht‑1, 当前时刻的输入词xt, 当 前时刻的词向量Ct, Wo为该层权重矩阵, bo为该层的偏 差矩阵, 然后用tanh函数进行运算; 则 有输出门的词向量 值Ot, 隐藏层的词向量 为ht; Ot=σ(Wo·[ht‑1, xt+bo])         (5) ht=Ot*tanh(Ct)          (6) 计算n轮, 得到与句子 长度相同的词向量序列 {h0, h1, h2......hn‑1}; 由模型构建模块(3)的预训练模块(301), 将文本表示后所得的单词表示向量采用LSTM 预训练模 型训练生成上下文相关的词向量; 模 型构建模块(3)的词信息特征提取模块(302) 根据预训练模型生成的上 下文相关的词向量进行运 算, 从词向量 提取关键信息的特 征; 模型构建模块(3)中词信息特征提取模块(302)采用Global  Attention, 以结合全局信 息为目的, 在通过LSTM计算后, 在表征上执行注意力机制; transformer模型中的注意机制 是一个函数, 从输入句子中映射出重要和相关的单词, 并为单词赋予更高的权重; 其计算 公 式为(7);权 利 要 求 书 2/3 页 3 CN 115422931 A 3

PDF文档 专利 面向长文本自动摘要任务的数据增强系统及其方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向长文本自动摘要任务的数据增强系统及其方法 第 1 页 专利 面向长文本自动摘要任务的数据增强系统及其方法 第 2 页 专利 面向长文本自动摘要任务的数据增强系统及其方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。