iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210892831.9 (22)申请日 2022.07.27 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 陈光 李婧蕾 李思 徐雅静  徐蔚然  (74)专利代理 机构 北京挺立专利事务所(普通 合伙) 11265 专利代理师 高福勇 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/186(2020.01) G06F 40/253(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称 一种基于多层次对比学习的模板句评估方 法 (57)摘要 本发明公开了一种基于多层次对比学习的 模板句评估 方法, 首先基于样 本层次和类别层次 的对比学习, 在少样本的场景下, 利用数据增强 技术构建对应的数据集, 利用对比学习自动训练 学习数据特性, 获得具有一定表征能力的语义编 码器, 然后将少量的原始样本输入编码器获得特 征向量, 考虑代表性、 区分度和句长三个维度的 特征, 在语义空间中将代表性建模为平均类内 距、 将区分度建模为平均类间距进行量化, 最终 使用加权量化值之和作为评估分数。 该方法能够 将样本间的数据特征纳入考虑, 从训练集中选出 最适合作为模板句的样本, 最终减少由于随机选 取模板句带来的不稳定性, 有效提升以模板句作 为组件的应用模 型效果, 语义编码器的可解释性 和表征能力可通过可视化进行验证 。 权利要求书3页 说明书9页 附图2页 CN 115270752 A 2022.11.01 CN 115270752 A 1.一种基于多层次对比学习的模板句评估方法, 其特征在于, 采用基于样本层次学习 的语义编码器、 基于类别层次学习的语义编码器和三维度量化评估方法; 所述样本层次学 习的语义编 码器是基于对比学习的聚类框架学习训练获得的, 样本层次学习的语义编 码器 将聚类作为任务目标, 采用预训练语言模 型BERT来对原始输入文本提取特征向量Z, 并将提 取的特征向量Z输入至聚类损失和实例对比损失中, 用来学习同一类别样本之间的数据特 征; 所述类别层次学习的语义编码器是基于对比学习的孪生网络框架学习训练练获得的, 类别层次学习的语义编码 器将文本 分类作为任务目标, 采用预训练语言模 型BERT来对原始 输入文本提取特征向量对(u, v), 并将提取的特征向量对(u, v)进行简单拼接后通过 softmax函数, 计算每个类别的概率, 用来学习 不同类别样本之间的数据特征; 所述的三维 度量化评估方法考虑代表性、 区分度和句 长三个维度的特征, 在语义空间中将代表性建模 为平均类内距、 将区分度建模为平均类间距, 计算平均类内距、 平均类间距、 句长的倒数, 最 终使用加权量 化值之和作为评估分数。 2.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 将原始 输入文本映射 为向量形式表示, 即将文本数值 化为每个字符向量列连接成的数值矩阵。 3.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 属于同 一类别文本的所述数值矩阵, 通过两两点乘再求平均的方式得到平均类内距作为代表性量 化值。 4.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 属于不 同类别文本的所述数值矩阵, 通过两两点乘再求平均的方式得到平均类间距作为区分度量 化值。 5.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 包括以 下步骤: S1、 构建样本层次对比学习数据集, 作为训练样本层次语义编码器的训练集; S2、 基于对比学习的聚类框架学习训练样本层次对比学习数据特性, 获得样本层次的 语义编码器; S3、 构建类别层次对比学习数据集, 相同类别的样本两两组成句子对并设为正样本, 将 不同类别样本 两两组成的句子对作为负 样本; S4、 基于对比学习的孪生网络框架学习训练类别层次对比学习数据特性, 获得类别层 次的语义编码器; S5、 将需要评估的模板句分别输入步骤S2学习所得的样本层次的语义编码器和步骤S4 学习所得的类别层次的语义编码器, 获得两种语义向量; S6、 计算两两语义向量之间的距离, 先对样本的语义向量进行归一化, 之后进行点积操 作, 以此作为向量之间的距离; S7、 计算待评估句子与同类别样本间的平均类内距作为代表性维度量化值, 计算待评 估句子与不同类别样本间的平均类间距作为区分度维度量化值, 计算待评估句子句长的倒 数作为句长量 化值; S8、 计算代 表性、 区分度和句长三个维度的加权和作为 最终评估分数。 6.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 步骤S1 包括:权 利 要 求 书 1/3 页 2 CN 115270752 A 2S11、 利用数据增强技 术, 为每一个实例构建增强数据; S12、 构建对比学习样本对, 将来源于同一实例的句子两两组成对设置为正样本, 来源 于不同实例的句子 两两组成对设置为负 样本。 7.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 步骤S2 包括: S21、 预训练语言模型BERT作 为文本特征提取器, 将步骤S1中样本层次对比学习数据 集 的句子对作为输入, 提取 特征向量对(zi, zj); S22、 通过句子对的特征向量对(zi, zj)计算实例对比损失LInstance‑CL, 将正样本对和负样 本对分离开, 实例对比损失计算方法如下式所示: 其中, M表示数据集的样本数量, i和 j表示样本序号, 和 表示来自于同一源样本的 正样本对特 征向量, 和 表示来自不同源样本的负 样本对特 征向量, τ表示温度系数; S23、 通过句子对的特征向量对(zi, zj)计算聚类对比损失LCluster, 将来源于相同类别的 实例聚集在一 起, 聚类对比损失计算方法如下式所示: 其中μk表示每个类别在语义空间中的质心, α 表示Student's  t‑分布的自由度; qjk表示 样本xj分配到第k个簇的概率, K表示语义类别数目, k∈{1, …,K}表示类别序号, pjk表示辅 助概率; S24、 利用实例对比损失LInstanceI ‑CL和聚类对比损失LCluster联合训练基于样本层次的语 义编码器。 8.根据权利要求1所述的基于多层次对比学习的模板句评估方法, 其特征在于, 步骤S4 包括: S41、 预训练语言模型SBERT作为文本特征提取器, 将步骤S3中样本层次对比学习数据 集的句子对作为输入, 提取 特征向量c;权 利 要 求 书 2/3 页 3 CN 115270752 A 3

PDF文档 专利 一种基于多层次对比学习的模板句评估方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多层次对比学习的模板句评估方法 第 1 页 专利 一种基于多层次对比学习的模板句评估方法 第 2 页 专利 一种基于多层次对比学习的模板句评估方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。