专利 一种优化网格标签的方面情感分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211109002.5 (22)申请日 2022.09.13 (71)申请人江南大学地址 214122 江苏省无锡市滨湖区蠡湖大道1800号 (72)发明人葛洪伟　王伟　江明　李婷　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 专利代理师吕永芳 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称一种优化网格标签的方面情感分析方法 (57)摘要本发明公开了一种优化网格标签的方面情感分析方法，属于自然语言处理，方面情感分析领域。所述方法采用增强位置学习的网格标签方法以及将正则dropout方法融入BERT模型，并在正则dropout方法上搭配扩充数据集方案来实现方面情感提取。本发明方法能够降低标注使用的空间代价，更准确的提取出文本中的方面情感三元组以及二元组的信息，提高模型利用率，满足实际工程系统的设计需求。权利要求书2页说明书10页附图4页 CN 115545038 A 2022.12.30 CN 115545038 A 1.一种优化网格标签的方面情感分析方法，其特征在于，所述方法采用3标签对待分析句子S＝{W1,W2…Wn}进行标注， Wi表示待分析句子S中的第i个单词；其中，句子中的方面术语与意见术语由对角线标注，词对信息在上三角标注，采用标签集{A,O,POS,NEU,NEG,N}来标记句子中词对(Wi,Wj)之间的关系；在方面情感三元组提取中采用四种编码{0,1,2,3}来对标签进行表示。 2.根据权利要求1所述的方法，其特征在于，所述句子中的方面术语与意见术语由对角线标注，包括：若对角线上的词属于方面术语，则标签为A，编码为1，若对角线上的词属于意见术语，则标签为O，编码为2；方面术语与意见术语构成的一组词对由它们的交点标识，情感极性由交点的编码表示，采用{1,2,3}来表示情感标签{Neg,Neu,Pos}，三个标签分别表示意见三元组表达的消极、中立和积极关系。 3.根据权利要求2所述的方法，其特征在于，所述方法包括模型训练阶段和实际分析阶段；模型训练阶段采用公开数据集或者自采集的数据集对采用旋转位置嵌入优化网格标签编码层后的BERT模型进行训练得到最优模型；实际分析阶段利用所述最优模型对待分析文件进行方面情感分析；所述方法包括：步骤一：对公开数据集或者自采集的数据集中的文本数据样本进行预处理；步骤二：将预处理后的文本输入BERT模型得到带有文本的语义信息；其中BERT模型 dropout值设置为0.3；步骤三：将带有文本的语义信息输入优化网格标签编码层进行标签标注；其中优化网格标签编码层采用旋转位置嵌入；步骤四：对优化网格标签编码层输出的二维的网格形式低维标签编码的两个输出分别求交叉熵和KL散度，进而求得最终L oss；步骤五：通过 F1值来确定最优模型， F1值就是测试集结果的评估方法；步骤六：利用最优模型得到待分析文本对应的网格，将最优模型得到的网格解析成对应的三元组，作为方面情感分析结果。 4.根据权利要求3所述的方法，其特征在于，所述对公开数据集或者自采集的数据集中的文本数据样本进行预处理，包括：步骤1.1，将每个文本数据样本做成统一的格式 ‘文本####三元组 ’，其中文本为原始文本，三元组的格式为三种信息构成的元组的一个列表形式，元组格式为： ([1,2],[3], ’ NEG’)，表示第1、 2个词合为方面术语，第3个词为意见术语， NEG表示对应的情感类别为负面的；步骤1.2，采用第一扩充方案或第二扩充方案扩充样本；所述第一扩充方案将任意两个文本数据样本中的方面术语、意见术语、情感类别进行随机替换，获得新的数据样本；所述第二扩充方案的第二种将任意两个文本数据样本中拼接后重新定位句中的方面术语、意见术语、情感类别，获得新的数据样本。 5.根据权利要求4所述的方法，其特征在于，所述步骤二中将预处理后的文本输入BERT 模型之前还包括：将预处理后的文本输入转化为BERT的token输入格式： [cls]+句子+[seq]，再转为对应的token id:[101……102]；其中， [cls]表示句子的开头，在最后的语义信息中可以把它当权　利　要　求　书 1/2 页 2 CN 115545038 A 2成整句文本的语义信息使用， [seq]表示句子的结尾，句子即为输入的文本的to ken格式。 6.根据权利要求5所述的方法，其特征在于，所述步骤四中交叉熵计算公式为：其中， Loss1表示交叉熵， C代表标签类别的数目，标签集{0.1.2.3}，则C＝4， n代表输入长度，即文本数据样本所包含的单词个数， yij＝k表示二维网格空间的(i,j)位置的值等于 k；表示(i,j)位置模型的预测值；也表示(i,j)位置模型的预测值。 7.根据权利要求6所述的方法，其特征在于，所述步骤四中KL散度计算公式为： Loss2＝KL(p| |q)+KL(q| |p) 其中， Loss2表示中KL散度， p为真实分布，后者q为拟合分布。 8.根据权利要求7所述的方法，其特征在于，所述步骤五中F1值指Macro ‑F1，计算公式为：其中， TP表示正样本准确， FN表示正样本错误， FP表示负样本错误， TN表示负样本正确。权　利　要　求　书 2/2 页 3 CN 115545038 A 3

专利 一种优化网格标签的方面情感分析方法

专利一种优化网格标签的方面情感分析方法