(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211109002.5
(22)申请日 2022.09.13
(71)申请人 江南大学
地址 214122 江苏省无锡市滨湖区蠡湖大
道1800号
(72)发明人 葛洪伟 王伟 江明 李婷
(74)专利代理 机构 哈尔滨市阳光惠远知识产权
代理有限公司 2321 1
专利代理师 吕永芳
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/35(2019.01)
(54)发明名称
一种优化网格标签的方面情感分析方法
(57)摘要
本发明公开了一种优化网格标签的方面情
感分析方法, 属于自然语言处理, 方面情感分析
领域。 所述方法采用增强位置学习的网格标签方
法以及将正则dropout方法融入BERT模型, 并在
正则dropout方法上搭配扩充数据集方案来实现
方面情感提取。 本发明方法能够降低标注使用的
空间代价, 更准确的提取出文本中的方面情感三
元组以及二元组的信息, 提高模型利用率, 满足
实际工程系统的设计需求。
权利要求书2页 说明书10页 附图4页
CN 115545038 A
2022.12.30
CN 115545038 A
1.一种优化网格标签的方面情感分析方法, 其特征在于, 所述方法采用3标签对待分析
句子S={W1,W2…Wn}进行标注, Wi表示待分析句 子S中的第i个单词; 其中, 句子中的方面术
语与意见术语由对角线标注, 词对信息在上三角标注, 采用标签集{A,O,POS,NEU,NEG,N}来
标记句子中词对(Wi,Wj)之间的关系; 在方面情 感三元组提取中采用四种编码{0,1,2,3}来
对标签进行表示。
2.根据权利要求1所述的方法, 其特征在于, 所述句子 中的方面术语与意见术语由对角
线标注, 包括:
若对角线上的词属于方面术语, 则标签为A, 编码为1, 若对角线上的词属于意见术语,
则标签为O, 编 码为2; 方面术语与意见术语构成的一组词对由它们的交点标识, 情感极性由
交点的编码表示, 采用{1,2,3}来表示情感标签{Neg,Neu,Pos}, 三个标签分别表示意见三
元组表达的消极、 中立和积极 关系。
3.根据权利要求2所述的方法, 其特征在于, 所述方法包括模型训练阶段和实际分析阶
段; 模型训练阶段采用公开数据集或者自采集的数据集对采用旋转位置嵌入优化网格标签
编码层后的BERT模型进 行训练得到最优模型; 实际分析阶段利用所述最优模型对待分析文
件进行方面情感分析; 所述方法包括:
步骤一: 对公开数据集或者自采集的数据集中的文本数据样本进行 预处理;
步骤二: 将预处理后的文本输入BERT模型得到带有文本的语义信息; 其中BERT模型
dropout值设置为0.3;
步骤三: 将带有文本的语义信息输入优化网格标签编码层进行标签标注; 其中优化网
格标签编码层采用旋转 位置嵌入;
步骤四: 对优化网格标签编码层输出的二维的网格形式低维标签编码的两个输出分别
求交叉熵和KL散度, 进 而求得最终L oss;
步骤五: 通过 F1值来确定最优 模型, F1值 就是测试集结果的评估方法;
步骤六: 利用最优模型得到待分析文本对应的网格, 将最优模型得到的网格解析成对
应的三元组, 作为方面情感分析 结果。
4.根据权利要求3所述的方法, 其特征在于, 所述对公开数据集或者自采集的数据集中
的文本数据样本进行 预处理, 包括:
步骤1.1, 将每个文本数据样本做成统一的格式 ‘文本####三元组 ’, 其中文本为原始文
本, 三元组的格式为三种信息构成的元组的一个列表形式, 元组格式为: ([1,2],[3], ’
NEG’), 表示第1、 2个词合为方面术语, 第3个词为意见术语, NEG表示对应的情感类别为负面
的;
步骤1.2, 采用第一扩充方案或第二扩充方案扩充样本;
所述第一扩充方案将任意两个文本数据样本中的方面术语、 意见术语、 情感类别进行
随机替换, 获得新的数据样本; 所述第二扩充方案的第二种将任意两个文本数据样本中拼
接后重新定位句中的方面 术语、 意见术语、 情感类别, 获得新的数据样本 。
5.根据权利要求4所述的方法, 其特征在于, 所述步骤二中将预处理后的文本输入BERT
模型之前还 包括:
将预处理后的文本输入转化为BERT的token输入格式: [cls]+句子+[seq], 再转为对应
的token id:[101……102]; 其中, [cls]表示句子的开头, 在最后的语义信息中可以把它当权 利 要 求 书 1/2 页
2
CN 115545038 A
2成整句文本的语义信息使用, [seq]表示句子的结尾, 句子即为输入的文本的to ken格式。
6.根据权利要求5所述的方法, 其特 征在于, 所述 步骤四中交叉熵计算公式为:
其中, Loss1表示交叉熵, C代表标签类别的数目, 标签集{0.1.2.3}, 则C=4, n代表输入
长度, 即文本数据样本所包含的单词个数, yij=k表示二维网格空间的(i,j)位置的值等于
k;
表示(i,j)位置模型的预测值;
也表示(i,j)位置模型的预测值。
7.根据权利要求6所述的方法, 其特 征在于, 所述 步骤四中KL散度计算公式为:
Loss2=KL(p| |q)+KL(q| |p)
其中, Loss2表示中KL散度, p为真实分布, 后者q为拟合分布。
8.根据权利要求7所述的方法, 其特征在于, 所述步骤五中F1值指Macro ‑F1, 计算公式
为:
其中,
TP表示正样本准确, FN表示正样本错
误, FP表示负 样本错误, TN表示负 样本正确。权 利 要 求 书 2/2 页
3
CN 115545038 A
3
专利 一种优化网格标签的方面情感分析方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:52上传分享