(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211101635.1
(22)申请日 2022.09.09
(71)申请人 人民网股份有限公司
地址 100026 北京市西城区新 街口外大街
28号B座234 号
申请人 天津大学
(72)发明人 贺瑞芳 韩明悦
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 刘子文
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/216(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于主题-述题理论的分层规划论文摘要生
成方法
(57)摘要
本发明公开一种基于主题 ‑述题理论的分层
规划论文摘要生成方法, (1)对论文标题及知识
图谱分别使用Transformer编码器和Graph
Transformer编码器进行编码, 获得论文标题及
知识图谱的表示; (2)主题词规划; (3)述题子图
规划: (4)依据主题词和述题子图进行各个句子
的生成: (5)重复(3 ‑4)流程, 直至全部的主题词
遍历结束, 将所有语句拼接在一起得到对应的论
文摘要。
权利要求书4页 说明书13页 附图1页
CN 115545037 A
2022.12.30
CN 115545037 A
1.一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征在于, 包括以下步
骤:
(1)对论文标题及知识图谱分别使用Trans former编码器和Graph Transformer编码器
进行编码, 获得论文标题及 知识图谱的表示; 所述知识图谱为 论文摘要对应的知识图谱;
(2)主题词规划:将论文标题及知识图谱中节点的表示拼接起来并学习其中的潜在语
义信息, 记得到的隐变量为ztopic, ztopic中包含论文标题和知识图谱的潜在语义信息; ztopic
用于初始化主题词解码器; 主题词解码器被训练用于生成主题词序列T, 主题词序列T中包
含若干个主题词: T={topick|1≤k≤|Y|}, |Y|表示论文摘要中共包含|Y|个句子; 主题词
序列中的第一个主题词topic1是论文摘要中第一个句子的主题词, topic2是论文摘要中第
二个句子的主题词, 以此类推, topick是论文摘要中第k个句子的主题词, k=1,2, …|Y|; 主
题词解码器在生成的每一 步都将从知识图谱中选择一个节点作为主题词;
(3)述题子图规划: 对于主题词序列T中的每个主题词都有对应的述题子图, 定义述题
子图的集合为g={gk|1≤k≤|Y|}; 以构造第k个主题词对应的述题子图为例: 以主题词
topick为基础, 对知识图谱中的每个节点进行打分, 打分结果在[0,1]之间, 并认为得分大
于0.4的节 点是相关的节 点, 分数小于0.4的节 点是不相关的节 点; 最终仅保留得分大于0.4
的节点, 舍弃不相关的节点; 以此 得到知识图谱的子图即为 述题子图, 记为gk;
(4)依据主题词topick和述题子图gk进行第k个句 子的生成: 由于论文摘要中各个句 子
间存在互相影响, 因此设置隐变量
表示当前句子的语义状态,
结合k‑1个句子状
态以及主题词和述题子图来学习第 k个句子应有的语义状态;
用于初始化句子解码器
的初始状态; 使用一个有监督的信号量来监督句子解码 器在生成每个单词时拷贝述题子图
的节点的概 率, 以此避免反复从述题子图拷贝节点。
(5)重复(3 ‑4)流程, 直至全部的主题词遍历结束, 将所有语句拼接在一起得到对应的
论文摘要。
2.根据权利要求1所述一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征
在于, 步骤(1)具体包括:
(101)对论文标题进行编码表示: 记输入的论文标题的表示向量为title={x1,x2,…,
xm},xi表示论文标题中的第i个单词的嵌入向量, i=1,2 …m, 利用Transformer编码器对输
入的论文标题向量进行编码表示; 最终得到的表示向量为
其中
是论文标题 中第i个单词的表示, i=1,2 …m; 定义htitle是所有单词表示的平均,
即论文标题的整体表示;
(102)对知识图谱进行编码表示: 记 输入的知 识图谱为 G={V,E}, 其中V={vi|1≤i≤n}
为知识图谱的节点集合, n是知识图谱中节点的总数量, vi是知识图谱中的第i个节点的嵌
入向量; E={eij|1≤i≤n,1≤j≤n}是知识图谱中的边集合, 其中eij是连接vi和vj的边的嵌
入向量; 知识图谱G由Graph Transformer编码器进行编码; 最终得到表示
是第i个节点表示; 定义
为所有节点表示的平均。
3.根据权利要求1所述一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征
在于, 步骤(2)具体包括:权 利 要 求 书 1/4 页
2
CN 115545037 A
2(201)隐变量的采样: 依据VAE(Variational Autoencoder)的思想结构, 首先将论文标
题表示和知识图谱表示拼接在一起后送 入到全连接层中, 分别获得高斯分布的均值 μtopic和
方差σt o p i c, 根据均值和方差构建隐变量zt o p i c; 其中zt o p i c的采样符合公式
表示ztopic的采样过程与htitle,
相关, ztopic采样过程等价于 μtopic, σtopic在高斯函数N( ·)下的重采样过程; 其中htitle是
论文标题的整体表示;
为所有节点表示的平均;
(202)主题词序列的生成: 主题词序列由主题词解码器进行生成, 主题词解码器完成一
次解码可生成一个主题词, 因此主题词解码器能够解码|Y|次; 主题词解码器的初始状态
由ztopic初始化:
是主题词解码器的初始状态, 不同的解码器状
态解码会得到不同的主题词; 以生成topick为例, 生成topick时的解码器状态为
遵照
公式(1)获得:
Bi‑GRUtopic(·,·)为应用于主题词生成的双向GRU解码器; topick‑1为k‑1个主题词;
为生成k‑1个主题词时的解码器 状态; 则topick由公式(2)确定:
其中Tanh( ·)为激活函数, softmax( ·)为概率分布函数, Wtopic,btopic为可训练参数; 公
式(2)能够计算出知识图谱中每个节点被选为topick的概率, 最终将选择概率最大节点作
为topick; 主题词解码器反复执行公式(1)和公式(2), 最终得到主题词序列T={topick|1≤
k≤|Y|}, |Y|表示论文摘要中共包含|Y|个句子, 每个主题词对应于一句话的主要主题内
容;
(203)主题词规划的损失函数L1为
q(ztopic)是ztopic的后验分布, p(ztopic)是ztopic的先验分布;
是基于后验分布的重构损失函数;
Dkl(q(ztopic)|p(ztopic))]是先验分布和后验分布之间的KL散度损失函数。
4.根据权利要求1所述一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征
在于, 步骤(3)具体包括:
(301)以主题词topick为基础, 对知识图谱中的每个节点进行打分, 打分结果在[0,1]之
间, 并认为得分大于0.4的节 点是相关的节 点, 分数小于0.4的节 点是不相关的节 点; 最终仅
保留得分大于0.4的节点, 舍弃不相关的节点; 以此得到知识图谱的子图即为述题子图, 记
为gk; 对于上述工作流 程的公式表达如下:
gk={vi|scorei>β,i=1,2,…n}#(6)权 利 要 求 书 2/4 页
3
CN 115545037 A
3
专利 基于主题-述题理论的分层规划论文摘要生成方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:53上传分享