(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211061622.6
(22)申请日 2022.08.31
(71)申请人 山东云海国创云计算装备产业创新
中心有限公司
地址 250000 山东省济南市中国 (山 东) 自
由贸易试验区济南片区浪潮路1036号
浪潮科技园S01楼3 5层
(72)发明人 陈静静 吴睿振 王凛 张旭
孙华锦
(74)专利代理 机构 北京连和连知识产权代理有
限公司 1 1278
专利代理师 杨帆 张元
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/34(2019.01)G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于摘要提取和关键字提取的中长文本分
类方法和系统
(57)摘要
本发明提供了基于摘要提取和关键字提取
的中长文本分类方法和系统, 方法包括以下步
骤: 基于TextRank算法, 提取文本摘要; 识别文本
摘要数据集, 将 文本摘要数据集训练BiLS TM分类
模型, 得到BiLS TM层的输 出即为文本的全局语义
的特征向量; 基于LDA算法, 提取文本的关键词,
加载GloVe词嵌入模型将提取的关键词转换为 关
键词向量, 将 全局语义的特征向量和关键词向量
进行拼接, 输入到全连接神经网络进行分类模型
的训练, 得到最后的分类结果: 本申请能够将全
局语义的特征向量和关键词向量进行拼接, 输入
到全连接神经网络进行分类模型的训练, 得到最
后的分类结果, 通过与传统的BiLS TM模型进行对
比, 本申请准确率(preci sion)、 召回率(recall)
和F1值(F1 ‑score)均较高。
权利要求书2页 说明书10页 附图6页
CN 115408523 A
2022.11.29
CN 115408523 A
1.一种基于摘要提取和关键字提取的中长文本分类方法, 其特征在于, 所述基于摘要
提取和关键 字提取的中长文本分类方法包括以下步骤:
基于TextRan k算法, 提取文本摘要, 获得文本摘要数据集;
识别文本摘要数据集, 将文本摘要数据集训练BiLSTM分类模型, 得到BiLSTM层的输出
即为文本的全局语义的特 征向量;
基于LDA算法, 提取文本的关键词, 加载GloVe词嵌入模型将提取的关键词转换为关键
词向量;
获取全局语义的特征向量和关键词向量, 将全局语义的特征向量和关键词向量进行拼
接, 输入到全连接神经网络进行分类模型的训练, 得到最后的分类结果。
2.根据权利要求1所述的方法, 其特征在于, Text Rank在构建图的时候将节点由网页
改成了句子, 并为节点之 间的边引入了权值, 其中权值表示两个句子的相似程度, 构建的是
一个带权无向图, 权值计算公式如下:
其中, WS(Vi)表示句子i的权重, 右侧的求和表示每个相邻的词对本词的贡献程度; In
(Vi)是整个文本中, 共现关系包含句子i的所有词的集合; Out(Vj)是句子j的共现关系中所
包含的所有词的集合; wji表示句子i和句子j的相似度, 可以通过句子i和句子j的词向量求
余弦相似度获得; WS(Vj)表示上次迭代结束后句子j的权 重; d是阻尼系数。
3.根据权利要求2所述的方法, 其特征在于, 基于LDA算法, 提取文本的关键词, 加载
GloVe词嵌入模型将提取的关键词转换为关键词向量时, 将文本中的每个句子分别看作一
个节点, 如果两个句子有相似性, 则认为 这两个句子对应的节点之间存在一条 无向有权边。
4.根据权利要求1至3任一项所述的方法, 其特征在于, 基于Text Rank算法, 提取文本摘
要, 获得文本摘要数据集的方法, 具体包括:
将给定的文本分成单组句子;
利用jieba分词工具句子进行分词, 并过 滤掉停用词, 得到句子的分词结果;
加载GloVe词嵌入 模型, 将分词结果 转换成词向量。
5.根据权利要求4所述的方法, 其特征在于, 基于Text Rank算法, 提取文本摘要, 获得文
本摘要数据集的方法, 具体还 包括:
将句子中所有的词向量 求和, 得到句子向量;
计算句子之间的余弦相似度, 建立句子之间的相似度矩阵;
基于TextRan k算法, 迭代传播各节点的权 重, 直至收敛, 获得句子的排名;
选取排名前N的句子作为文本的摘要; 用作后续模型的输入。
6.根据权利 要求5所述的方法, 其特征在于, 所述将文本摘要数据集训练BiLSTM分类模
型, 得到Bi LSTM层的输出即为文本的全局语义的特 征向量的方法, 具体包括:
获取所提取的摘要, 利用jieba分词工具对给定的文本进行分词, 并过滤掉停用词, 得
到文本的分词结果;
加载GloVe词嵌入 模型, 将分词结果 转换成词向量;
将给定摘要对应的词向量和对应的分类 类别, 输入到Bi LSTM模型中进行模型训练;权 利 要 求 书 1/2 页
2
CN 115408523 A
2训练好的模型的Bi LSTM层得到的向量作为摘要对应的全局语义的特 征。
7.根据权利要求6所述的方法, 其特征在于, 基于LDA算法, 提取文本的关键词, 加载
GloVe词嵌入 模型将提取的关键词转换为关键词向量的方法, 具体包括:
对于给定的文本全文, 利用jieba进行分词和词性标注, 并过滤掉停用词, 只保留指定
词性的单词;
加载GloVe词嵌入模型, 将所有保留下的词转换成词向量{C(w1),C(w2),C(w3),…C
(wv)}, 其中C(wi)表示词wi的词向量, v是文本中所有所有保留下来的词的数量;
直接利用Gensim模块内的LDA模型对文本训练集进行主题模型训练, 然后利用训练好
的模型, 选出文档对应的概率最大的主题, 然后选择概率最大的主题下的前k个词(w1,w2,
w3,…wk,)及其对应的概 率(p1,p2,p3,…pk,); 将概率值进行归一 化作为k个词的权 重信息;
从GloVe词嵌入模型的结果, 获取前k个词(w1,w2,w3,…wk,)的词向量(C(w1),C(w2),C
(w3),…C(wk)), 利用权重信息(q1,q2,q3,…qk,)对词向量进行加权求和, 作为文本的关键词
特征信息。
8.根据权利要求7所述的方法, 其特征在于, 输入到全连接神经网络进行分类模型的训
练, 得到最后的分类结果的方法, 具体包括:
将BiLSTM模型获得的全局语义向量与LDA模型的关键词特征向量进行拼接; 拼接之后
的词向量融合了全局的语义特 征和关键词特 征。
9.根据权利要求8所述的方法, 其特征在于, 输入到全连接神经网络进行分类模型的训
练, 得到最后的分类结果的方法, 具体还 包括:
将拼接之后的向量输入到全连接神经网络进行分类。
10.一种基于权利要求1 ‑9任一所述基于摘要提取和关键字提取的中长文本分类方法
的基于摘要提取和关键字提取 的中长文本分类系统, 其特征在于, 所述基于摘要提取和关
键字提取的中长文本分类系统包括:
文本摘要获取模块, 基于TextRan k算法, 提取文本摘要, 获得文本摘要数据集;
全局语义识别 模块, 识别 文本摘要数据集, 将文本摘要数据集训练BiLSTM分类模型, 得
到BiLSTM层的输出即为文本的全局语义的特 征向量;
关键词向量转换模块, 基于LDA算法, 提取文本的关键词, 加载GloVe词嵌入模型将提取
的关键词转换为关键词向量;
分类结果获取模块, 获取全局语义的特征向量和关键词向量, 将全局语义的特征向量
和关键词向量进行拼接, 输入到全连接神经网络进行分类模型的训练, 得到最后的分类结
果。权 利 要 求 书 2/2 页
3
CN 115408523 A
3
专利 基于摘要提取和关键字提取的中长文本分类方法和系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:20上传分享