iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211118339.2 (22)申请日 2022.09.15 (71)申请人 北京智谱华 章科技有限公司 地址 100084 北京市海淀区中关村东路1号 院8号楼五层B5 01 (72)发明人 姜鹏 仇瑜 高云鹏 刘德兵  (74)专利代理 机构 北京天达知识产权代理事务 所(普通合伙) 11386 专利代理师 庞许倩 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/237(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于语义的无监督学术关键词提取方 法及设备 (57)摘要 本发明涉及一种基于语义的无监督学术关 键词提取方法及设备, 属于自然语 言处理技术领 域; 包括以下步骤: 获取待识别论文, 利用所述论 文的标题和 摘要作为待识别文本; 基于预先构建 的学术词表对 所述论文的待识别文本进行分词; 根据分词后得到的每个词的词长、 词位置和词的 TF‑IDF得分, 计算每个词的综合得分; 基于所述 综合得分, 得到候选关键词; 将所述候选关键词 与所述待识别文本输入预先训练的深度语义模 型, 得到所述关键词与论文 标题和摘要的语义相 似度; 选择所述语义相似度大于阈值的关键词, 得到所述待识别论文的学术关键词。 本发明解决 了现有的关键词提取方法存在噪音词且效率低 的问题。 权利要求书3页 说明书10页 附图1页 CN 115186665 A 2022.10.14 CN 115186665 A 1.一种基于语义的无监 督学术关键词提取 方法, 其特 征在于, 包括以下步骤: 获取待识别文本, 所述待识别文本包括 论文的标题和摘要; 基于预先构建的学术词表对所述待识别文本进行分词; 根据分词后得到的每个词的词长、 词位置和词的TF ‑IDF得分, 计算每个词的综合得分; 基于所述综合得分, 得到候选关键词; 将所述候选关键词与 所述待识别文本输入预先训练 的深度语义模型, 得到所述关键词 与所述待识别文本的语义相似度; 选择所述语义相似度大于阈值的关键词, 得到所述论文 的学术关键词。 2.根据权利要求1所述的学术关键词提取方法, 其特征在于, 所述深度语义模型的训练 包括: 构建论文语料库, 所述 论文语料库中包括多个论文的标题及对应的摘要; 将所述论文语料库中论文的标题、 标题对应的摘要和论文语料库中随机抽取的n个摘 要输入DSS M的双塔结构模 型, 计算论文的标题与摘要的相似度, 经过损失函数迭代更新, 最 大化所述标题与标题对应的摘要的语义相似度, 得到训练好的深度语义模型; n为大于1的 整数。 3.根据权利要求2所述的学术关键词提取方法, 其特征在于, 采用DSSM的双塔结构模型 训练的所述深度语义模型包括输入层、 表示层和匹配层; 所述输入层采用N ‑Gram模型对输入的标题和摘要分别进行降维, 得到降维压缩后的低 维语义向量; 所述表示层包括三层全连接层, 每层使用非线性激活函数进行激活, 对所述低维语义 向量进行 特征整合得到固定维度的表示层隐向量; 所述匹配层基于所述表示层隐向量计算得到所述标题和摘要的语义相似度。 4.根据权利要求3所述的学术关键词提取方法, 其特征在于, 所述学术词表通过无监督 方法构建, 包括: 对论文语料库中的标题和摘要进行词频统计; 基于N ‑Gram词频、 点互信息、 左右熵及时 间影响因子计算分词后得到的每个词的成词概率, 选择成词概率大于概率阈值的词构建得 到学术词表。 5.根据权利要求4所述的学术关键词提取方法, 其特征在于, 所述 时间影响因子基于包 含分词后得到的词的论文发表时间与词首次出现时间的平均时间跨度计算得到, 计算公式 为: 其中, n表示包含词 的论文数量, 表示包含词 的第 篇论文的发表年份, 表示 词 在论文语料库中首次出现的论文发表的时间。 6.根据权利要求3所述的学术关键词提取方法, 其特征在于, 通过下述公式计算成词概 率:权 利 要 求 书 1/3 页 2 CN 115186665 A 2其中, 表示论文总数, 表示论文语料库中包含词 的论文数, 表示逆文档频率; 表示词 的N‑Gram词频, 即词 在论文语料库 中出现的频率, 表示词 的点互信息, 表示左邻字信息熵, 表示右邻字信息熵, 表示词 的所有左 邻字集合, 表示词 的所有右邻字集 合。 7.根据权利要求1所述的学术关键词提取方法, 其特征在于, 利用词长、 词位置、 词的 TF‑IDF权重统计得分进行加权, 计算每 个词的综合得分; 其中, TF‑IDF权重统计得分通过 下述公式计算得到: 其中, t为经过N ‑Gram处理得到的词, d为词t所在的待处理的论文, 为论文d中包含的 任一个词, 为词t出现在论文d中的频次, 为论文d中包含的任一个词在论文d中出 现的频次, D为论文语料库, 表示包含词t的文档数, 表示词频, 表示逆文档频率, 表示TF‑IDF得分。 8.根据权利要求1或7所述的学术关键词提取方法, 其特征在于, 根据词位于标题和摘 要中的位置计算得到位置得分, 所述 位置得分的计算公式为: ; 其中, 表示词的索引值。 9.根据权利要求1所述的学术关键词提取方法, 其特征在于, 通过下述公式, 计算每个 词的综合得分: 其中, 表示词的索引值, 表示词 的长度, 表示 的位置 得分, 表示TF‑IDF得分。 10.一种计算机设备, 其特征在于, 包括至少一个处理器, 以及至少一个与所述处理器 通信连接的存 储器; 所述存储器存储有可被所述处理器执行的指令, 所述指令用于被所述处理器执行以实权 利 要 求 书 2/3 页 3 CN 115186665 A 3

PDF文档 专利 一种基于语义的无监督学术关键词提取方法及设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义的无监督学术关键词提取方法及设备 第 1 页 专利 一种基于语义的无监督学术关键词提取方法及设备 第 2 页 专利 一种基于语义的无监督学术关键词提取方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。