专利 基于摘要提取和关键字提取的中长文本分类方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211061622.6 (22)申请日 2022.08.31 (71)申请人山东云海国创云计算装备产业创新中心有限公司地址 250000 山东省济南市中国（山东）自由贸易试验区济南片区浪潮路1036号浪潮科技园S01楼3 5层 (72)发明人陈静静　吴睿振　王凛　张旭　孙华锦　 (74)专利代理机构北京连和连知识产权代理有限公司 1 1278 专利代理师杨帆　张元 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01)G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于摘要提取和关键字提取的中长文本分类方法和系统 (57)摘要本发明提供了基于摘要提取和关键字提取的中长文本分类方法和系统，方法包括以下步骤：基于TextRank算法，提取文本摘要；识别文本摘要数据集，将文本摘要数据集训练BiLS TM分类模型，得到BiLS TM层的输出即为文本的全局语义的特征向量；基于LDA算法，提取文本的关键词，加载GloVe词嵌入模型将提取的关键词转换为关键词向量，将全局语义的特征向量和关键词向量进行拼接，输入到全连接神经网络进行分类模型的训练，得到最后的分类结果：本申请能够将全局语义的特征向量和关键词向量进行拼接，输入到全连接神经网络进行分类模型的训练，得到最后的分类结果，通过与传统的BiLS TM模型进行对比，本申请准确率(preci sion)、召回率(recall) 和F1值(F1 ‑score)均较高。权利要求书2页说明书10页附图6页 CN 115408523 A 2022.11.29 CN 115408523 A 1.一种基于摘要提取和关键字提取的中长文本分类方法，其特征在于，所述基于摘要提取和关键字提取的中长文本分类方法包括以下步骤：基于TextRan k算法，提取文本摘要，获得文本摘要数据集；识别文本摘要数据集，将文本摘要数据集训练BiLSTM分类模型，得到BiLSTM层的输出即为文本的全局语义的特征向量；基于LDA算法，提取文本的关键词，加载GloVe词嵌入模型将提取的关键词转换为关键词向量；获取全局语义的特征向量和关键词向量，将全局语义的特征向量和关键词向量进行拼接，输入到全连接神经网络进行分类模型的训练，得到最后的分类结果。 2.根据权利要求1所述的方法，其特征在于， Text Rank在构建图的时候将节点由网页改成了句子，并为节点之间的边引入了权值，其中权值表示两个句子的相似程度，构建的是一个带权无向图，权值计算公式如下：其中， WS(Vi)表示句子i的权重，右侧的求和表示每个相邻的词对本词的贡献程度； In (Vi)是整个文本中，共现关系包含句子i的所有词的集合； Out(Vj)是句子j的共现关系中所包含的所有词的集合； wji表示句子i和句子j的相似度，可以通过句子i和句子j的词向量求余弦相似度获得； WS(Vj)表示上次迭代结束后句子j的权重； d是阻尼系数。 3.根据权利要求2所述的方法，其特征在于，基于LDA算法，提取文本的关键词，加载 GloVe词嵌入模型将提取的关键词转换为关键词向量时，将文本中的每个句子分别看作一个节点，如果两个句子有相似性，则认为这两个句子对应的节点之间存在一条无向有权边。 4.根据权利要求1至3任一项所述的方法，其特征在于，基于Text Rank算法，提取文本摘要，获得文本摘要数据集的方法，具体包括：将给定的文本分成单组句子；利用jieba分词工具句子进行分词，并过滤掉停用词，得到句子的分词结果；加载GloVe词嵌入模型，将分词结果转换成词向量。 5.根据权利要求4所述的方法，其特征在于，基于Text Rank算法，提取文本摘要，获得文本摘要数据集的方法，具体还包括：将句子中所有的词向量求和，得到句子向量；计算句子之间的余弦相似度，建立句子之间的相似度矩阵；基于TextRan k算法，迭代传播各节点的权重，直至收敛，获得句子的排名；选取排名前N的句子作为文本的摘要；用作后续模型的输入。 6.根据权利要求5所述的方法，其特征在于，所述将文本摘要数据集训练BiLSTM分类模型，得到Bi LSTM层的输出即为文本的全局语义的特征向量的方法，具体包括：获取所提取的摘要，利用jieba分词工具对给定的文本进行分词，并过滤掉停用词，得到文本的分词结果；加载GloVe词嵌入模型，将分词结果转换成词向量；将给定摘要对应的词向量和对应的分类类别，输入到Bi LSTM模型中进行模型训练；权　利　要　求　书 1/2 页 2 CN 115408523 A 2训练好的模型的Bi LSTM层得到的向量作为摘要对应的全局语义的特征。 7.根据权利要求6所述的方法，其特征在于，基于LDA算法，提取文本的关键词，加载 GloVe词嵌入模型将提取的关键词转换为关键词向量的方法，具体包括：对于给定的文本全文，利用jieba进行分词和词性标注，并过滤掉停用词，只保留指定词性的单词；加载GloVe词嵌入模型，将所有保留下的词转换成词向量{C(w1),C(w2),C(w3),…C (wv)}，其中C(wi)表示词wi的词向量， v是文本中所有所有保留下来的词的数量；直接利用Gensim模块内的LDA模型对文本训练集进行主题模型训练，然后利用训练好的模型，选出文档对应的概率最大的主题，然后选择概率最大的主题下的前k个词(w1,w2, w3,…wk,)及其对应的概率(p1,p2,p3,…pk,)；将概率值进行归一化作为k个词的权重信息；从GloVe词嵌入模型的结果，获取前k个词(w1,w2,w3,…wk,)的词向量(C(w1),C(w2),C (w3),…C(wk))，利用权重信息(q1,q2,q3,…qk,)对词向量进行加权求和，作为文本的关键词特征信息。 8.根据权利要求7所述的方法，其特征在于，输入到全连接神经网络进行分类模型的训练，得到最后的分类结果的方法，具体包括：将BiLSTM模型获得的全局语义向量与LDA模型的关键词特征向量进行拼接；拼接之后的词向量融合了全局的语义特征和关键词特征。 9.根据权利要求8所述的方法，其特征在于，输入到全连接神经网络进行分类模型的训练，得到最后的分类结果的方法，具体还包括：将拼接之后的向量输入到全连接神经网络进行分类。 10.一种基于权利要求1 ‑9任一所述基于摘要提取和关键字提取的中长文本分类方法的基于摘要提取和关键字提取的中长文本分类系统，其特征在于，所述基于摘要提取和关键字提取的中长文本分类系统包括：文本摘要获取模块，基于TextRan k算法，提取文本摘要，获得文本摘要数据集；全局语义识别模块，识别文本摘要数据集，将文本摘要数据集训练BiLSTM分类模型，得到BiLSTM层的输出即为文本的全局语义的特征向量；关键词向量转换模块，基于LDA算法，提取文本的关键词，加载GloVe词嵌入模型将提取的关键词转换为关键词向量；分类结果获取模块，获取全局语义的特征向量和关键词向量，将全局语义的特征向量和关键词向量进行拼接，输入到全连接神经网络进行分类模型的训练，得到最后的分类结果。权　利　要　求　书 2/2 页 3 CN 115408523 A 3

专利 基于摘要提取和关键字提取的中长文本分类方法和系统

专利基于摘要提取和关键字提取的中长文本分类方法和系统