(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211119575.6
(22)申请日 2022.09.15
(71)申请人 北京智谱华 章科技有限公司
地址 100084 北京市海淀区中关村东路1号
院8号楼五层B5 01
(72)发明人 姜鹏 仇瑜 高云鹏 刘德兵
(74)专利代理 机构 北京天达知识产权代理事务
所有限公司 1 1386
专利代理师 庞许倩
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种学术关键词批量识别系统
(57)摘要
本发明涉及学术关键词批量识别系统, 属于
自然语言处理技术领域; 包括分词模块、 关键词
粗排批处理模块和关键词精排批处理模块; 分词
模块用于构建学术词表并基于学术词表对所有
待识别论文的标题和 摘要进行分词, 得到每个论
文的召回关键词; 关键词粗排批处理模块用于对
所有待识别论文的召回关键词进行批量排序处
理, 得到每个论文对应的候选关键词; 关键词精
排批处理模块用于对所有待识别论文对应的候
选关键词及对应的标题和摘要的语义相似度进
行批量排序处理, 基于语义相似度得到每个论文
对应的学术 关键词。 本发明解决了现有的关键词
提取系统无法进行批量处理, 效率低, 且存在噪
音词的问题。
权利要求书2页 说明书10页 附图1页
CN 115392244 A
2022.11.25
CN 115392244 A
1.一种学术关键词批量识别系统, 其特征在于, 包括分词模块、 关键词粗排批处理模块
和关键词精排批处 理模块;
所述分词模块包括词表构建单元和关键词召回单元; 所述词表构建单元用于对所有待
识别论文的标题和摘要进 行词频统计并计算成词概率, 根据所述成词概率构建得到学术词
表; 所述关键词召回单元用于基于所述学术词表对所有待识别论文的标题和摘要进行分
词, 得到每 个论文的召回关键词;
所述关键词粗排批处理模块用于根据召回关键词的统计得分对所有待识别论文的召
回关键词进行批量 排序处理, 得到每 个论文对应的候选关键词;
所述关键词精排批处理模块用于对所有待识别论文对应的所述候选关键词及对应的
标题和摘要的语义相似度进行批量排序处理, 基于所述语义相似度得到每个论文对应的学
术关键词; 所述语义相似度通过 预先训练的深度语义模型计算得到 。
2.根据权利要求1所述的学术关键词批量识别系统, 其特征在于, 构建所述学术词表包
括:
构建论文语料库, 所述 论文语料库中包括所有 待识别论文的标题及对应的摘要;
对论文语料库中的论文标题和摘要 进行词频统计;
基于N‑Gram词频、 点互信息、 左右熵及时间影响因子计算每个词的成词概率, 选择成词
概率大于概 率阈值的词构建得到学术词表。
3.根据权利要求2所述的学术关键词批量识别系统, 其特征在于, 所述 时间影响因子基
于包含词的论文发表时间与词首次出现时间的平均时间跨度计算得到, 计算公式为:
其中, n表示包含词x的论文数量, ti表示包含词x的第i篇论文的发表年份, tv表示词x在
论文语料库中首次出现的论文发表的时间。
4.根据权利要求2所述的学术关键词批量识别系统, 其特征在于, 通过下述公式计算得
到所述点互信息的值PMI(x,y):
其中, x和y分别为经过N ‑Gram算法得到的词或字, p(x,y)为x和y组合后的词组在论文
语料库中出现的概率, p(x)为x在论文语料库中出现的概率, p(y)为y在论文语料库中出现
的概率。
5.根据权利要求2所述的学术关键词批量识别系统, 其特征在于, 通过下述公式计算成
词概率:
其中, |D|表示论文总数, |{d∈D:x∈d}|表示论文语料库中包含词x的论文数,
表示逆文档频率; freq(x)表示词x的N ‑Gram词频, 即词x在论文语料库中出
现的频率, PMI(x)表示词 x的点互信息, Hxl(Xl)表示左邻字信息熵, Hxr(Xr)表示右邻字信息
熵, Xl表示词x的所有左 邻字集合, Xr表示词x的所有右邻字集 合。权 利 要 求 书 1/2 页
2
CN 115392244 A
26.根据权利要求1所述的学术关键词批量识别系统, 其特征在于, 将所述论文语料库中
论文的标题、 标题对应的摘要和论文语料库中随机抽取的n个摘要输入DSSM的双塔结构模
型, 计算论文的标题与摘要的相似度, 经过损失函数迭代更新, 最大化所述标题与标题对应
的摘要的语义相似度, 训练得到深度语义模型; n 为大于1的整数。
7.根据权利要求6所述的学术关键词批量识别系统, 其特征在于, 采用DSSM双塔结构模
型训练的所述深度语义模型包括输入层、 表示层和匹配层;
所述输入层采用N ‑Gram模型对输入的标题和摘要分别进行降维, 得到降维压缩后的低
维语义向量;
所述表示层包括三层全连接层, 每层使用非线性激活函数进行激活, 对所述低维语义
向量进行 特征整合得到固定维度的表示层隐向量;
所述匹配层基于所述表示层隐向量计算得到所述标题和摘要的语义相似度。
8.根据权利要求1所述的学术关键词批量识别系统, 其特征在于, 所述对待识别论文进
行关键词粗 排, 得到候选关键词包括:
基于所述学术词表对待识别论文的标题和摘要进行分词; 根据分词后得到的每个词的
词长、 词位置和词的TF ‑IDF得分, 计算每个词的综合得分; 基于所述综合得分, 得到候选关
键词;
其中, 通过 下述公式, 计算每 个词的综合得分:
Score(xi)=Length(xi)·Position(xi)·tfidf(xi)
其中, i表示词的索引值, Length(xi)表示词xi的长度, Position(xi)表示xi的位置得分,
tfidf(xi)表示TF‑IDF得分。
9.根据权利要求7所述的学术关键词批量识别系统, 其特征在于, 通过下述公式计算得
到TF‑IDF权重统计得分:
tfidf(t, d, D)=tf(t, d) ·idf(t, D);
其中, t为经过N ‑Gram处理得到的词, d为词t所在的待 处理的论文, t ′为论文d中包含的
任一个词, ft,d为词t出现在论文d中的频次, ft',d为论文d中包含的任一个词 在论文d中出现
的频次, D为论文语料库中待识别论文数据集, |{d∈D:t∈d}|表 示论文语料库中包含词t的
文档数, tf(t,d)表示词频, idf(t,D)表示逆文档频率, tfidf(t,d,D)表示TF ‑IDF得分。
10.根据权利要求8所述的学术关键词批量识别系统, 其特征在于, 根据词位于标题和
摘要中的位置计算得到位置得分, 所述 位置得分的计算公式为:
其中, i表示词的索引值。权 利 要 求 书 2/2 页
3
CN 115392244 A
3
专利 一种学术关键词批量识别系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:50上传分享