iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211101635.1 (22)申请日 2022.09.09 (71)申请人 人民网股份有限公司 地址 100026 北京市西城区新 街口外大街 28号B座234 号 申请人 天津大学 (72)发明人 贺瑞芳 韩明悦  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 刘子文 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于主题-述题理论的分层规划论文摘要生 成方法 (57)摘要 本发明公开一种基于主题 ‑述题理论的分层 规划论文摘要生成方法, (1)对论文标题及知识 图谱分别使用Transformer编码器和Graph   Transformer编码器进行编码, 获得论文标题及 知识图谱的表示; (2)主题词规划; (3)述题子图 规划: (4)依据主题词和述题子图进行各个句子 的生成: (5)重复(3 ‑4)流程, 直至全部的主题词 遍历结束, 将所有语句拼接在一起得到对应的论 文摘要。 权利要求书4页 说明书13页 附图1页 CN 115545037 A 2022.12.30 CN 115545037 A 1.一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征在于, 包括以下步 骤: (1)对论文标题及知识图谱分别使用Trans former编码器和Graph  Transformer编码器 进行编码, 获得论文标题及 知识图谱的表示; 所述知识图谱为 论文摘要对应的知识图谱; (2)主题词规划:将论文标题及知识图谱中节点的表示拼接起来并学习其中的潜在语 义信息, 记得到的隐变量为ztopic, ztopic中包含论文标题和知识图谱的潜在语义信息; ztopic 用于初始化主题词解码器; 主题词解码器被训练用于生成主题词序列T, 主题词序列T中包 含若干个主题词: T={topick|1≤k≤|Y|}, |Y|表示论文摘要中共包含|Y|个句子; 主题词 序列中的第一个主题词topic1是论文摘要中第一个句子的主题词, topic2是论文摘要中第 二个句子的主题词, 以此类推, topick是论文摘要中第k个句子的主题词, k=1,2, …|Y|; 主 题词解码器在生成的每一 步都将从知识图谱中选择一个节点作为主题词; (3)述题子图规划: 对于主题词序列T中的每个主题词都有对应的述题子图, 定义述题 子图的集合为g={gk|1≤k≤|Y|}; 以构造第k个主题词对应的述题子图为例: 以主题词 topick为基础, 对知识图谱中的每个节点进行打分, 打分结果在[0,1]之间, 并认为得分大 于0.4的节 点是相关的节 点, 分数小于0.4的节 点是不相关的节 点; 最终仅保留得分大于0.4 的节点, 舍弃不相关的节点; 以此 得到知识图谱的子图即为 述题子图, 记为gk; (4)依据主题词topick和述题子图gk进行第k个句 子的生成: 由于论文摘要中各个句 子 间存在互相影响, 因此设置隐变量 表示当前句子的语义状态, 结合k‑1个句子状 态以及主题词和述题子图来学习第 k个句子应有的语义状态; 用于初始化句子解码器 的初始状态; 使用一个有监督的信号量来监督句子解码 器在生成每个单词时拷贝述题子图 的节点的概 率, 以此避免反复从述题子图拷贝节点。 (5)重复(3 ‑4)流程, 直至全部的主题词遍历结束, 将所有语句拼接在一起得到对应的 论文摘要。 2.根据权利要求1所述一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征 在于, 步骤(1)具体包括: (101)对论文标题进行编码表示: 记输入的论文标题的表示向量为title={x1,x2,…, xm},xi表示论文标题中的第i个单词的嵌入向量, i=1,2 …m, 利用Transformer编码器对输 入的论文标题向量进行编码表示; 最终得到的表示向量为 其中 是论文标题 中第i个单词的表示, i=1,2 …m; 定义htitle是所有单词表示的平均, 即论文标题的整体表示; (102)对知识图谱进行编码表示: 记 输入的知 识图谱为 G={V,E}, 其中V={vi|1≤i≤n} 为知识图谱的节点集合, n是知识图谱中节点的总数量, vi是知识图谱中的第i个节点的嵌 入向量; E={eij|1≤i≤n,1≤j≤n}是知识图谱中的边集合, 其中eij是连接vi和vj的边的嵌 入向量; 知识图谱G由Graph  Transformer编码器进行编码; 最终得到表示 是第i个节点表示; 定义 为所有节点表示的平均。 3.根据权利要求1所述一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征 在于, 步骤(2)具体包括:权 利 要 求 书 1/4 页 2 CN 115545037 A 2(201)隐变量的采样: 依据VAE(Variational  Autoencoder)的思想结构, 首先将论文标 题表示和知识图谱表示拼接在一起后送 入到全连接层中, 分别获得高斯分布的均值 μtopic和 方差σt o p i c, 根据均值和方差构建隐变量zt o p i c; 其中zt o p i c的采样符合公式 表示ztopic的采样过程与htitle, 相关, ztopic采样过程等价于 μtopic, σtopic在高斯函数N( ·)下的重采样过程; 其中htitle是 论文标题的整体表示; 为所有节点表示的平均; (202)主题词序列的生成: 主题词序列由主题词解码器进行生成, 主题词解码器完成一 次解码可生成一个主题词, 因此主题词解码器能够解码|Y|次; 主题词解码器的初始状态 由ztopic初始化: 是主题词解码器的初始状态, 不同的解码器状 态解码会得到不同的主题词; 以生成topick为例, 生成topick时的解码器状态为 遵照 公式(1)获得: Bi‑GRUtopic(·,·)为应用于主题词生成的双向GRU解码器; topick‑1为k‑1个主题词; 为生成k‑1个主题词时的解码器 状态; 则topick由公式(2)确定: 其中Tanh( ·)为激活函数, softmax( ·)为概率分布函数, Wtopic,btopic为可训练参数; 公 式(2)能够计算出知识图谱中每个节点被选为topick的概率, 最终将选择概率最大节点作 为topick; 主题词解码器反复执行公式(1)和公式(2), 最终得到主题词序列T={topick|1≤ k≤|Y|}, |Y|表示论文摘要中共包含|Y|个句子, 每个主题词对应于一句话的主要主题内 容; (203)主题词规划的损失函数L1为 q(ztopic)是ztopic的后验分布, p(ztopic)是ztopic的先验分布; 是基于后验分布的重构损失函数; Dkl(q(ztopic)|p(ztopic))]是先验分布和后验分布之间的KL散度损失函数。 4.根据权利要求1所述一种基于主题 ‑述题理论的分层规划论文摘要生成方法, 其特征 在于, 步骤(3)具体包括: (301)以主题词topick为基础, 对知识图谱中的每个节点进行打分, 打分结果在[0,1]之 间, 并认为得分大于0.4的节 点是相关的节 点, 分数小于0.4的节 点是不相关的节 点; 最终仅 保留得分大于0.4的节点, 舍弃不相关的节点; 以此得到知识图谱的子图即为述题子图, 记 为gk; 对于上述工作流 程的公式表达如下: gk={vi|scorei>β,i=1,2,…n}#(6)权 利 要 求 书 2/4 页 3 CN 115545037 A 3

PDF文档 专利 基于主题-述题理论的分层规划论文摘要生成方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于主题-述题理论的分层规划论文摘要生成方法 第 1 页 专利 基于主题-述题理论的分层规划论文摘要生成方法 第 2 页 专利 基于主题-述题理论的分层规划论文摘要生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。