iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211066299.1 (22)申请日 2022.08.31 (71)申请人 中国航天空气动力技 术研究院 地址 100074 北京市丰台区云岗西路17号 (72)发明人 马弢 许亮 冯峰  (74)专利代理 机构 中国航天科技专利中心 11009 专利代理师 范晓毅 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于双密度的无监督数据可分性评价 方法 (57)摘要 本发明公开了一种基于双密度的无监督数 据可分性评价方法, 包括对待评价数据集中的每 一数据点赋予聚类标签; 计算每一数据点的同类 点密度和异 类点密度; 得到每一数据点的双密度 指标的比值; 得到待评价数据集的可分离性分 数; 利用分类网络训练聚类标签, 得到预测的聚 类标签, 并重新计算同类点密度和异类点密度; 分类网络的损失函数基于可分离性分数构建。 本 发明基于聚类标签实现了无监督数据可分性评 价, 方法简单, 准确度高。 权利要求书2页 说明书5页 附图1页 CN 115526237 A 2022.12.27 CN 115526237 A 1.一种基于双 密度的无监 督数据可分性评价方法, 其特 征在于, 包括: S1对待评价数据集中的每一数据点赋予聚类标签; S2基于聚类标签, 计算每一数据点的同类点密度和异类点密度; S3根据每一数据点的同类点密度和异类点密度, 得到每一数据点的双密度指标的比 值; S4根据每一数据点的双 密度指标的比值, 得到待评价数据集的可分离性分数; S5记录S1~S4的执行轮次, 当执行轮次达到预定轮次, 输出S4所得可分离性分数, 当执 行轮次未达 到预定轮次, 执 行S6; S6利用分类 网络训练S1中的聚类标签, 得到预测的聚类标签, 并返回S1; 利用分类网络 训练聚类标签所用的损失函数基于S4所 得可分离性分数构建。 2.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S1中, 对待评价数据集中的每一类数据点赋予的聚类标签的初值为采用Kmeans算法将 待评价数据集中的数据点进行聚类后得到的聚类标签。 3.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 每一数据点的同类点密度 δi和异类点密度φi按照如下公式计算: 其中, μ为设定的阈值, Wij为数据点i和数据 点j在特征空间中的欧式距离, 表示以数 据点i为圆心, 以μ为半径的范围内与数据点i同类别的数据点的集合, χ( ·)表示指示函数, 括号内大于零则 χ( ·)取值为1, 否则为0 。 4.根据权利要求3所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, Wij=euclidean_dist(xi,xj), 其中xi和xj分别为数据点i和数据点j的特征向量, euclidean_dist( ·,·)代表计算两个数据点欧氏距离的函数。 5.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S3中, 数据点 i的双密度指标的比值dif fi的计算公式为: 其中, δi为同类点密度, φi为异类点密度, ε是防止分母为0的极小正数, 取值在 0.001~ 0.1之间。 6.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S4中, 可分离性分数score的计算公式为: diffi为数据点 i的双密度指标的比值, N 为待评价数据集中包 含的数据点个数。 7.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,权 利 要 求 书 1/2 页 2 CN 115526237 A 2步骤S6中, 分类网络为卷积神经网络 CNN或多层感知机 MLP。 8.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S6中, 利用分类网络训练S1中的聚类标签, 得到预测的聚类标签的方法为: S6.1将步骤S1中的全部数据点的聚类标签作为真值标签ytrue; S6.2将真值标签ytrue和数据点的原始数据特征X输入分类网络, 使分类网络完成一轮 前 向传播后得到预测的类别标签ypred, 保留分类网络中特征提 取层的输出Xfeat, 并通过损失函 数得到本轮前向传播的损失值 LOSS; S6.3基于损失值LOSS通过反向传播完成分类网络参数的更新, 并令X=Xfeat, ytrue= ypred; S6.4循环执行步骤S6.2~S6.3至 预定训练轮次后, 分类网络输出预测的类别标签ypred, 即为预测的聚类标签。 9.根据权利要求8所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 损失函数 其中, N为待评价数据集中包含的数据点个数, CroEnt( ·)表示交叉熵函数, 和 分别为数据点 i的真值标签和预测的类别标签, score为可分离性分数。 10.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在 于, 利用可分离性分数评价待评价数据集的可分离性, 可分离性分数越大, 待评价数据集的 可分离性越好。权 利 要 求 书 2/2 页 3 CN 115526237 A 3

.PDF文档 专利 一种基于双密度的无监督数据可分性评价方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双密度的无监督数据可分性评价方法 第 1 页 专利 一种基于双密度的无监督数据可分性评价方法 第 2 页 专利 一种基于双密度的无监督数据可分性评价方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:00:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。