iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211061622.6 (22)申请日 2022.08.31 (71)申请人 山东云海国创云计算装备产业创新 中心有限公司 地址 250000 山东省济南市中国 (山 东) 自 由贸易试验区济南片区浪潮路1036号 浪潮科技园S01楼3 5层 (72)发明人 陈静静 吴睿振 王凛 张旭  孙华锦  (74)专利代理 机构 北京连和连知识产权代理有 限公司 1 1278 专利代理师 杨帆 张元 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01)G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于摘要提取和关键字提取的中长文本分 类方法和系统 (57)摘要 本发明提供了基于摘要提取和关键字提取 的中长文本分类方法和系统, 方法包括以下步 骤: 基于TextRank算法, 提取文本摘要; 识别文本 摘要数据集, 将 文本摘要数据集训练BiLS TM分类 模型, 得到BiLS TM层的输 出即为文本的全局语义 的特征向量; 基于LDA算法, 提取文本的关键词, 加载GloVe词嵌入模型将提取的关键词转换为 关 键词向量, 将 全局语义的特征向量和关键词向量 进行拼接, 输入到全连接神经网络进行分类模型 的训练, 得到最后的分类结果: 本申请能够将全 局语义的特征向量和关键词向量进行拼接, 输入 到全连接神经网络进行分类模型的训练, 得到最 后的分类结果, 通过与传统的BiLS TM模型进行对 比, 本申请准确率(preci sion)、 召回率(recall) 和F1值(F1 ‑score)均较高。 权利要求书2页 说明书10页 附图6页 CN 115408523 A 2022.11.29 CN 115408523 A 1.一种基于摘要提取和关键字提取的中长文本分类方法, 其特征在于, 所述基于摘要 提取和关键 字提取的中长文本分类方法包括以下步骤: 基于TextRan k算法, 提取文本摘要, 获得文本摘要数据集; 识别文本摘要数据集, 将文本摘要数据集训练BiLSTM分类模型, 得到BiLSTM层的输出 即为文本的全局语义的特 征向量; 基于LDA算法, 提取文本的关键词, 加载GloVe词嵌入模型将提取的关键词转换为关键 词向量; 获取全局语义的特征向量和关键词向量, 将全局语义的特征向量和关键词向量进行拼 接, 输入到全连接神经网络进行分类模型的训练, 得到最后的分类结果。 2.根据权利要求1所述的方法, 其特征在于, Text  Rank在构建图的时候将节点由网页 改成了句子, 并为节点之 间的边引入了权值, 其中权值表示两个句子的相似程度, 构建的是 一个带权无向图, 权值计算公式如下: 其中, WS(Vi)表示句子i的权重, 右侧的求和表示每个相邻的词对本词的贡献程度; In (Vi)是整个文本中, 共现关系包含句子i的所有词的集合; Out(Vj)是句子j的共现关系中所 包含的所有词的集合; wji表示句子i和句子j的相似度, 可以通过句子i和句子j的词向量求 余弦相似度获得; WS(Vj)表示上次迭代结束后句子j的权 重; d是阻尼系数。 3.根据权利要求2所述的方法, 其特征在于, 基于LDA算法, 提取文本的关键词, 加载 GloVe词嵌入模型将提取的关键词转换为关键词向量时, 将文本中的每个句子分别看作一 个节点, 如果两个句子有相似性, 则认为 这两个句子对应的节点之间存在一条 无向有权边。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 基于Text Rank算法, 提取文本摘 要, 获得文本摘要数据集的方法, 具体包括: 将给定的文本分成单组句子; 利用jieba分词工具句子进行分词, 并过 滤掉停用词, 得到句子的分词结果; 加载GloVe词嵌入 模型, 将分词结果 转换成词向量。 5.根据权利要求4所述的方法, 其特征在于, 基于Text Rank算法, 提取文本摘要, 获得文 本摘要数据集的方法, 具体还 包括: 将句子中所有的词向量 求和, 得到句子向量; 计算句子之间的余弦相似度, 建立句子之间的相似度矩阵; 基于TextRan k算法, 迭代传播各节点的权 重, 直至收敛, 获得句子的排名; 选取排名前N的句子作为文本的摘要; 用作后续模型的输入。 6.根据权利 要求5所述的方法, 其特征在于, 所述将文本摘要数据集训练BiLSTM分类模 型, 得到Bi LSTM层的输出即为文本的全局语义的特 征向量的方法, 具体包括: 获取所提取的摘要, 利用jieba分词工具对给定的文本进行分词, 并过滤掉停用词, 得 到文本的分词结果; 加载GloVe词嵌入 模型, 将分词结果 转换成词向量; 将给定摘要对应的词向量和对应的分类 类别, 输入到Bi LSTM模型中进行模型训练;权 利 要 求 书 1/2 页 2 CN 115408523 A 2训练好的模型的Bi LSTM层得到的向量作为摘要对应的全局语义的特 征。 7.根据权利要求6所述的方法, 其特征在于, 基于LDA算法, 提取文本的关键词, 加载 GloVe词嵌入 模型将提取的关键词转换为关键词向量的方法, 具体包括: 对于给定的文本全文, 利用jieba进行分词和词性标注, 并过滤掉停用词, 只保留指定 词性的单词; 加载GloVe词嵌入模型, 将所有保留下的词转换成词向量{C(w1),C(w2),C(w3),…C (wv)}, 其中C(wi)表示词wi的词向量, v是文本中所有所有保留下来的词的数量; 直接利用Gensim模块内的LDA模型对文本训练集进行主题模型训练, 然后利用训练好 的模型, 选出文档对应的概率最大的主题, 然后选择概率最大的主题下的前k个词(w1,w2, w3,…wk,)及其对应的概 率(p1,p2,p3,…pk,); 将概率值进行归一 化作为k个词的权 重信息; 从GloVe词嵌入模型的结果, 获取前k个词(w1,w2,w3,…wk,)的词向量(C(w1),C(w2),C (w3),…C(wk)), 利用权重信息(q1,q2,q3,…qk,)对词向量进行加权求和, 作为文本的关键词 特征信息。 8.根据权利要求7所述的方法, 其特征在于, 输入到全连接神经网络进行分类模型的训 练, 得到最后的分类结果的方法, 具体包括: 将BiLSTM模型获得的全局语义向量与LDA模型的关键词特征向量进行拼接; 拼接之后 的词向量融合了全局的语义特 征和关键词特 征。 9.根据权利要求8所述的方法, 其特征在于, 输入到全连接神经网络进行分类模型的训 练, 得到最后的分类结果的方法, 具体还 包括: 将拼接之后的向量输入到全连接神经网络进行分类。 10.一种基于权利要求1 ‑9任一所述基于摘要提取和关键字提取的中长文本分类方法 的基于摘要提取和关键字提取 的中长文本分类系统, 其特征在于, 所述基于摘要提取和关 键字提取的中长文本分类系统包括: 文本摘要获取模块, 基于TextRan k算法, 提取文本摘要, 获得文本摘要数据集; 全局语义识别 模块, 识别 文本摘要数据集, 将文本摘要数据集训练BiLSTM分类模型, 得 到BiLSTM层的输出即为文本的全局语义的特 征向量; 关键词向量转换模块, 基于LDA算法, 提取文本的关键词, 加载GloVe词嵌入模型将提取 的关键词转换为关键词向量; 分类结果获取模块, 获取全局语义的特征向量和关键词向量, 将全局语义的特征向量 和关键词向量进行拼接, 输入到全连接神经网络进行分类模型的训练, 得到最后的分类结 果。权 利 要 求 书 2/2 页 3 CN 115408523 A 3

.PDF文档 专利 基于摘要提取和关键字提取的中长文本分类方法和系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于摘要提取和关键字提取的中长文本分类方法和系统 第 1 页 专利 基于摘要提取和关键字提取的中长文本分类方法和系统 第 2 页 专利 基于摘要提取和关键字提取的中长文本分类方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。