专利 一种学术关键词批量识别系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211119575.6 (22)申请日 2022.09.15 (71)申请人北京智谱华章科技有限公司地址 100084 北京市海淀区中关村东路1号院8号楼五层B5 01 (72)发明人姜鹏　仇瑜　高云鹏　刘德兵　 (74)专利代理机构北京天达知识产权代理事务所有限公司 1 1386 专利代理师庞许倩 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种学术关键词批量识别系统 (57)摘要本发明涉及学术关键词批量识别系统，属于自然语言处理技术领域；包括分词模块、关键词粗排批处理模块和关键词精排批处理模块；分词模块用于构建学术词表并基于学术词表对所有待识别论文的标题和摘要进行分词，得到每个论文的召回关键词；关键词粗排批处理模块用于对所有待识别论文的召回关键词进行批量排序处理，得到每个论文对应的候选关键词；关键词精排批处理模块用于对所有待识别论文对应的候选关键词及对应的标题和摘要的语义相似度进行批量排序处理，基于语义相似度得到每个论文对应的学术关键词。本发明解决了现有的关键词提取系统无法进行批量处理，效率低，且存在噪音词的问题。权利要求书2页说明书10页附图1页 CN 115392244 A 2022.11.25 CN 115392244 A 1.一种学术关键词批量识别系统，其特征在于，包括分词模块、关键词粗排批处理模块和关键词精排批处理模块；所述分词模块包括词表构建单元和关键词召回单元；所述词表构建单元用于对所有待识别论文的标题和摘要进行词频统计并计算成词概率，根据所述成词概率构建得到学术词表；所述关键词召回单元用于基于所述学术词表对所有待识别论文的标题和摘要进行分词，得到每个论文的召回关键词；所述关键词粗排批处理模块用于根据召回关键词的统计得分对所有待识别论文的召回关键词进行批量排序处理，得到每个论文对应的候选关键词；所述关键词精排批处理模块用于对所有待识别论文对应的所述候选关键词及对应的标题和摘要的语义相似度进行批量排序处理，基于所述语义相似度得到每个论文对应的学术关键词；所述语义相似度通过预先训练的深度语义模型计算得到。 2.根据权利要求1所述的学术关键词批量识别系统，其特征在于，构建所述学术词表包括：构建论文语料库，所述论文语料库中包括所有待识别论文的标题及对应的摘要；对论文语料库中的论文标题和摘要进行词频统计；基于N‑Gram词频、点互信息、左右熵及时间影响因子计算每个词的成词概率，选择成词概率大于概率阈值的词构建得到学术词表。 3.根据权利要求2所述的学术关键词批量识别系统，其特征在于，所述时间影响因子基于包含词的论文发表时间与词首次出现时间的平均时间跨度计算得到，计算公式为：其中， n表示包含词x的论文数量， ti表示包含词x的第i篇论文的发表年份， tv表示词x在论文语料库中首次出现的论文发表的时间。 4.根据权利要求2所述的学术关键词批量识别系统，其特征在于，通过下述公式计算得到所述点互信息的值PMI(x,y)：其中， x和y分别为经过N ‑Gram算法得到的词或字， p(x,y)为x和y组合后的词组在论文语料库中出现的概率， p(x)为x在论文语料库中出现的概率， p(y)为y在论文语料库中出现的概率。 5.根据权利要求2所述的学术关键词批量识别系统，其特征在于，通过下述公式计算成词概率：其中， |D|表示论文总数， |{d∈D:x∈d}|表示论文语料库中包含词x的论文数，表示逆文档频率； freq(x)表示词x的N ‑Gram词频，即词x在论文语料库中出现的频率， PMI(x)表示词 x的点互信息， Hxl(Xl)表示左邻字信息熵， Hxr(Xr)表示右邻字信息熵， Xl表示词x的所有左邻字集合， Xr表示词x的所有右邻字集合。权　利　要　求　书 1/2 页 2 CN 115392244 A 26.根据权利要求1所述的学术关键词批量识别系统，其特征在于，将所述论文语料库中论文的标题、标题对应的摘要和论文语料库中随机抽取的n个摘要输入DSSM的双塔结构模型，计算论文的标题与摘要的相似度，经过损失函数迭代更新，最大化所述标题与标题对应的摘要的语义相似度，训练得到深度语义模型； n 为大于1的整数。 7.根据权利要求6所述的学术关键词批量识别系统，其特征在于，采用DSSM双塔结构模型训练的所述深度语义模型包括输入层、表示层和匹配层；所述输入层采用N ‑Gram模型对输入的标题和摘要分别进行降维，得到降维压缩后的低维语义向量；所述表示层包括三层全连接层，每层使用非线性激活函数进行激活，对所述低维语义向量进行特征整合得到固定维度的表示层隐向量；所述匹配层基于所述表示层隐向量计算得到所述标题和摘要的语义相似度。 8.根据权利要求1所述的学术关键词批量识别系统，其特征在于，所述对待识别论文进行关键词粗排，得到候选关键词包括：基于所述学术词表对待识别论文的标题和摘要进行分词；根据分词后得到的每个词的词长、词位置和词的TF ‑IDF得分，计算每个词的综合得分；基于所述综合得分，得到候选关键词；其中，通过下述公式，计算每个词的综合得分： Score(xi)＝Length(xi)·Position(xi)·tfidf(xi) 其中， i表示词的索引值， Length(xi)表示词xi的长度， Position(xi)表示xi的位置得分， tfidf(xi)表示TF‑IDF得分。 9.根据权利要求7所述的学术关键词批量识别系统，其特征在于，通过下述公式计算得到TF‑IDF权重统计得分： tfidf(t， d， D)＝tf(t， d) ·idf(t， D)；其中， t为经过N ‑Gram处理得到的词， d为词t所在的待处理的论文， t ′为论文d中包含的任一个词， ft,d为词t出现在论文d中的频次， ft',d为论文d中包含的任一个词在论文d中出现的频次， D为论文语料库中待识别论文数据集， |{d∈D:t∈d}|表示论文语料库中包含词t的文档数， tf(t,d)表示词频， idf(t,D)表示逆文档频率， tfidf(t,d,D)表示TF ‑IDF得分。 10.根据权利要求8所述的学术关键词批量识别系统，其特征在于，根据词位于标题和摘要中的位置计算得到位置得分，所述位置得分的计算公式为：其中， i表示词的索引值。权　利　要　求　书 2/2 页 3 CN 115392244 A 3

专利 一种学术关键词批量识别系统

专利一种学术关键词批量识别系统