(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211116359.6
(22)申请日 2022.09.14
(71)申请人 山东省计算中心 (国家超 级计算济
南中心)
地址 250014 山东省济南市历下区科院路
19号
申请人 齐鲁工业大学
(72)发明人 刘祥志 薛许强 吴晓明 侯冬冬
于洋 李胜男 张建强 张鹏
汪付强 郝秋赟 马晓凤
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 黄海丽
(51)Int.Cl.
G06F 40/30(2020.01)G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
联合预训练和图神经网络的政策文本标注
方法及系统
(57)摘要
本发明公开了联合预训练和图神经网络的
政策文本标注方法及系统; 其中所述方法包括:
获取待标注的政 策文本, 对待标注的政策文本进
行预处理; 对 预处理后的政策文本输入到训练后
的政策文本标注模型中, 输出政 策文本的标注结
果; 其中, 训练后的政策文本标注模型, 其工作原
理包括: 对于处理后的政策文本提取单词向量和
句子向量; 基于预处理后的政策文本构建文本级
图结构, 获取文本级图结构对应的邻接矩阵; 基
于单词向量和句子向量, 提取出政 策文本的语义
特征; 基于单词向量和邻接矩阵, 提取出政策文
本的结构特征; 基于语义特征和结构特征, 确定
政策文本标注结果。
权利要求书2页 说明书10页 附图3页
CN 115374792 A
2022.11.22
CN 115374792 A
1.联合预训练和图神经网络的政策文本标注方法, 其特 征是, 包括:
获取待标注的政策文本, 对待标注的政策文本进行 预处理;
对预处理后的政策文本输入到训练后的政策文本标注模型中, 输出政策文本的标注结
果;
其中, 训练后的政策文本标注模型, 其工作原 理包括: 对于处理后的政策文本提取单词
向量和句 子向量; 基于预处理后的政策文本构建文本级图结构, 获取文本级图结构对应的
邻接矩阵; 基于单词向量和句子向量, 提取出政策文本的语义特征; 基于单词向量和邻接矩
阵, 提取出政策文本的结构特 征; 基于语义特 征和结构特 征, 确定政策文本标注结果。
2.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法, 其特征是, 所述
训练后的政策文本标注模型, 其模型 结构包括:
第一预训练语言模型和文本级图构建层;
第一预训练语言模型的输入端和文本级图构建层的输入端, 均用于输入预处理后的政
策文本; 所述第一预训练语言模型的输出为第1、 5、 9、 12隐藏层的词向量; 所述文本级图构
建的输出端为单个政策文本的图结构所表示的邻接矩阵;
第一预训练语言模型的输出端与第 二预训练语言模型的输入端连接, 第 二预训练语言
模型的输出端与全连接层的输入端连接, 全连接层的输出端与第一sigmoid激活函数层的
输入端连接, 第一sigmo id激活函数层的输出端与联合输出层的输入端连接;
文本级图构建层的输出端和第一预训练语言模型的输出端均与图神经网络层的输入
端连接; 图神经网络层的输出端与最大池化层的输入端连接, 最大池化层的输出端与
sigmoid激活函数层的输入端 连接, 第二sigmoid激活函数层的输出端与联合输出层的输入
端连接;
联合输出层的输出端用于 输出政策文本标注结果。
3.如权利要求2所述的联合预训练和图神经网络的政策文本标注方法, 其特征是, 所述
文本级图构建层, 是对政策文本的分词结果采用滑动窗口进 行滑动, 滑动窗口的长度为N个
词汇, 滑动窗口的滑动步长为M个词汇; N和M均为正整 数; 将每个词汇视为节 点, 根据滑动窗
口的内容, 计算窗口内任意两个节点之 间的权重, 当权重为正值时, 将两个节 点之间设置连
接边, 当权重为零 或负值时, 不设置连接边, 滑动结束后, 得到构建的文本级图结构, 根据文
本级图结构得到对应的邻接矩阵。
4.如权利要求2所述的联合预训练和图神经网络的政策文本标注方法, 其特征是, 所述
图神经网络层, 包括依次串联的第一图神经网络GCN子层和第二图神经网络GCN子层, 其中
第一图神经网络 GCN子层的输入端分别与文本级图构建层的输出端和第一预训练语言模型
的输出端连接; 其中, 第二图神经网络GCN子层的输出端与最大池化层的输入端连接 。
5.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法, 其特征是, 获取
待标注的政策文本, 对待标注的政策文本进行预处理, 具体包括: 采用正则表达式, 去除待
标注政策文本中的HTML标签和非文本内容; 对待标注政策文本进行分词处理; 对分词后的
词汇, 去除停用词。
6.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法, 其特征是, 所述
基于单词向量和句 子向量, 提取出政策文本的语义特征, 具体是采用第二预训练语言模型
对单词向量和句子向量, 提取 出政策文本的语义特 征。权 利 要 求 书 1/2 页
2
CN 115374792 A
27.如权利要求1所述的联合预训练和图神经网络的政策文本标注方法, 其特征是, 基于
单词向量和邻接矩阵, 提取 出政策文本的结构特 征; 具体包括:
将单词向量
和邻接矩阵
按照批量的方式依次输入到两个图神经网
络GCN子层中, 通过两个图神经网络 GCN子层获取邻接矩阵中每个词节 点的一跳和二跳邻居
信息, 在单个政策文本图中学习局部结构的细粒度词汇 表示;
其中, 在第一图神经网络GCN子层后, 使用修正线性单元ReLU激活函数对第一图神经网
络GCN子层输出的 隐藏单元的特征进 行修正线性, 避免了梯度消失, 同时作为第二图神经网
络GCN子层的输入;
其中, 第二图神经网络GCN子层的输出为政策文本的类别数, 表示 为:
其中, K表 示为政策文本数, n表 示为词节 点的数量, m表 示为政策文本的类别数,
第
二图神经网络的最终输出向量;
联合输出层, 公式如下:
WConv1,WConv2=softmax(0.1);
Z=WConv1ZGCN+WConv2ZBert;
其中, WConv1, WConv2均为可学习参数, Z为联合预训练和图神经网络模型最终输 出结果, 表
示为Z∈Rk×m, k为输入批量的政策文本数, m为政策文本 的类别数; softmax表示激活函数,
ZGCN表示结构特 征, ZBert表示语义特 征。
8.联合预训练和图神经网络的政策文本标注系统, 其特 征是, 包括:
获取模块, 其被 配置为: 获取待标注的政策文本, 对待标注的政策文本进行 预处理;
标注模块, 其被配置为: 对预处理后的政策文本输入到训练后的政策文本标注模型中,
输出政策文本的标注结果;
其中, 训练后的政策文本标注模型, 其工作原 理包括: 对于处理后的政策文本提取单词
向量和句 子向量; 基于预处理后的政策文本构建文本级图结构, 获取文本级图结构对应的
邻接矩阵; 基于单词向量和句子向量, 提取出政策文本的语义特征; 基于单词向量和邻接矩
阵, 提取出政策文本的结构特 征; 基于语义特 征和结构特 征, 确定政策文本标注结果。
9.一种电子设备, 其特 征是, 包括:
存储器, 用于非暂时性存 储计算机可读指令; 以及
处理器, 用于运行 所述计算机可读指令,
其中, 所述计算机可读指令被所述处理器运行时, 执行上述权利要求1 ‑7任一项所述的
方法。
10.一种存储介质, 其特征是, 非暂时性地存储计算机可读指令, 其中, 当所述非暂时性
计算机可读指令由计算机执 行时, 执行权利要求1 ‑7任一项所述方法的指令 。权 利 要 求 书 2/2 页
3
CN 115374792 A
3
专利 联合预训练和图神经网络的政策文本标注方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:51上传分享