iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211066299.1 (22)申请日 2022.08.31 (71)申请人 中国航天空气动力技 术研究院 地址 100074 北京市丰台区云岗西路17号 (72)发明人 马弢 许亮 冯峰 (74)专利代理 机构 中国航天科技专利中心 11009 专利代理师 范晓毅 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于双密度的无监督数据可分性评价 方法 (57)摘要 本发明公开了一种基于双密度的无监督数 据可分性评价方法, 包括对待评价数据集中的每 一数据点赋予聚类标签; 计算每一数据点的同类 点密度和异 类点密度; 得到每一数据点的双密度 指标的比值; 得到待评价数据集的可分离性分 数; 利用分类网络训练聚类标签, 得到预测的聚 类标签, 并重新计算同类点密度和异类点密度; 分类网络的损失函数基于可分离性分数构建。 本 发明基于聚类标签实现了无监督数据可分性评 价, 方法简单, 准确度高。 权利要求书2页 说明书5页 附图1页 CN 115526237 A 2022.12.27 CN 115526237 A 1.一种基于双 密度的无监 督数据可分性评价方法, 其特 征在于, 包括: S1对待评价数据集中的每一数据点赋予聚类标签; S2基于聚类标签, 计算每一数据点的同类点密度和异类点密度; S3根据每一数据点的同类点密度和异类点密度, 得到每一数据点的双密度指标的比 值; S4根据每一数据点的双 密度指标的比值, 得到待评价数据集的可分离性分数; S5记录S1~S4的执行轮次, 当执行轮次达到预定轮次, 输出S4所得可分离性分数, 当执 行轮次未达 到预定轮次, 执 行S6; S6利用分类 网络训练S1中的聚类标签, 得到预测的聚类标签, 并返回S1; 利用分类网络 训练聚类标签所用的损失函数基于S4所 得可分离性分数构建。 2.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S1中, 对待评价数据集中的每一类数据点赋予的聚类标签的初值为采用Kmeans算法将 待评价数据集中的数据点进行聚类后得到的聚类标签。 3.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 每一数据点的同类点密度 δi和异类点密度φi按照如下公式计算: 其中, μ为设定的阈值, Wij为数据点i和数据 点j在特征空间中的欧式距离, 表示以数 据点i为圆心, 以μ为半径的范围内与数据点i同类别的数据点的集合, χ( ·)表示指示函数, 括号内大于零则 χ( ·)取值为1, 否则为0 。 4.根据权利要求3所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, Wij=euclidean_dist(xi,xj), 其中xi和xj分别为数据点i和数据点j的特征向量, euclidean_dist( ·,·)代表计算两个数据点欧氏距离的函数。 5.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S3中, 数据点 i的双密度指标的比值dif fi的计算公式为: 其中, δi为同类点密度, φi为异类点密度, ε是防止分母为0的极小正数, 取值在 0.001~ 0.1之间。 6.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S4中, 可分离性分数score的计算公式为: diffi为数据点 i的双密度指标的比值, N 为待评价数据集中包 含的数据点个数。 7.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,权 利 要 求 书 1/2 页 2 CN 115526237 A 2步骤S6中, 分类网络为卷积神经网络 CNN或多层感知机 MLP。 8.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 步骤S6中, 利用分类网络训练S1中的聚类标签, 得到预测的聚类标签的方法为: S6.1将步骤S1中的全部数据点的聚类标签作为真值标签ytrue; S6.2将真值标签ytrue和数据点的原始数据特征X输入分类网络, 使分类网络完成一轮 前 向传播后得到预测的类别标签ypred, 保留分类网络中特征提 取层的输出Xfeat, 并通过损失函 数得到本轮前向传播的损失值 LOSS; S6.3基于损失值LOSS通过反向传播完成分类网络参数的更新, 并令X=Xfeat, ytrue= ypred; S6.4循环执行步骤S6.2~S6.3至 预定训练轮次后, 分类网络输出预测的类别标签ypred, 即为预测的聚类标签。 9.根据权利要求8所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于, 损失函数 其中, N为待评价数据集中包含的数据点个数, CroEnt( ·)表示交叉熵函数, 和 分别为数据点 i的真值标签和预测的类别标签, score为可分离性分数。 10.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在 于, 利用可分离性分数评价待评价数据集的可分离性, 可分离性分数越大, 待评价数据集的 可分离性越好。权 利 要 求 书 2/2 页 3 CN 115526237 A 3
专利 一种基于双密度的无监督数据可分性评价方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 13:00:23
上传分享
举报
下载
原文档
(459.6 KB)
分享
友情链接
GBT 33132-2016 信息安全技术 信息安全风险处理实施指南.pdf
GB-T 18771.1-2015 烟草术语 第1部分: 烟草类型与烟叶生产.pdf
GB-T 32007-2015 汽车零部件的统一编码与标识.pdf
GB-T 5838.3-2015 荧光粉 第3部分:性能试验方法.pdf
GB-T 8013.1-2018 铝及铝合金阳极氧化膜与有机聚合物膜 第1部分:阳极氧化膜.pdf
OWASP TOP10 2021中文版 .pdf
GA-T 841-2021 基于离子迁移谱技术的痕量毒品-炸药探测仪通用技术要求.pdf
DB34-T 3433.1-2019 计量检测数据信息 第 1 部分:数据项 安徽省.pdf
DB65-T 4529—2022 三相异步电动机节能监测 新疆维吾尔自治区.pdf
GB-T 39772.2-2021 北斗地基增强系统基准站建设和验收技术规范 第2部分:验收规范.pdf
GB-T 16433-2009 残疾人田径运动员医学和功能分级.pdf
GB-T 30688-2014 馆藏砖石文物病害与图示.pdf
GB-T 42021-2022 工业互联网 总体网络架构.pdf
GB-T 21023-2007 中文语音识别系统通用技术规范.pdf
GB-T 41843-2022 功能、残疾、健康分类的康复组合评定.pdf
GB-T 17694-2009 地理信息 术语.pdf
NY-T 848-2004 蔬菜产地环境技术条件.pdf
ISO 27002 2022 中文试译交流版.pdf
GB/T 29244-2012 信息安全技术 办公设备基本安全要求.pdf
GB-T 26510-2011 防水用塑性体改性沥青.pdf
1
/
3
9
评价文档
赞助3元 点击下载(459.6 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。