专利 一种基于双密度的无监督数据可分性评价方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211066299.1 (22)申请日 2022.08.31 (71)申请人中国航天空气动力技术研究院地址 100074 北京市丰台区云岗西路17号 (72)发明人马弢　许亮　冯峰　 (74)专利代理机构中国航天科技专利中心 11009 专利代理师范晓毅 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称一种基于双密度的无监督数据可分性评价方法 (57)摘要本发明公开了一种基于双密度的无监督数据可分性评价方法，包括对待评价数据集中的每一数据点赋予聚类标签；计算每一数据点的同类点密度和异类点密度；得到每一数据点的双密度指标的比值；得到待评价数据集的可分离性分数；利用分类网络训练聚类标签，得到预测的聚类标签，并重新计算同类点密度和异类点密度；分类网络的损失函数基于可分离性分数构建。本发明基于聚类标签实现了无监督数据可分性评价，方法简单，准确度高。权利要求书2页说明书5页附图1页 CN 115526237 A 2022.12.27 CN 115526237 A 1.一种基于双密度的无监督数据可分性评价方法，其特征在于，包括： S1对待评价数据集中的每一数据点赋予聚类标签； S2基于聚类标签，计算每一数据点的同类点密度和异类点密度； S3根据每一数据点的同类点密度和异类点密度，得到每一数据点的双密度指标的比值； S4根据每一数据点的双密度指标的比值，得到待评价数据集的可分离性分数； S5记录S1～S4的执行轮次，当执行轮次达到预定轮次，输出S4所得可分离性分数，当执行轮次未达到预定轮次，执行S6； S6利用分类网络训练S1中的聚类标签，得到预测的聚类标签，并返回S1；利用分类网络训练聚类标签所用的损失函数基于S4所得可分离性分数构建。 2.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，步骤S1中，对待评价数据集中的每一类数据点赋予的聚类标签的初值为采用Kmeans算法将待评价数据集中的数据点进行聚类后得到的聚类标签。 3.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，每一数据点的同类点密度 δi和异类点密度φi按照如下公式计算：其中， μ为设定的阈值， Wij为数据点i和数据点j在特征空间中的欧式距离，表示以数据点i为圆心，以μ为半径的范围内与数据点i同类别的数据点的集合， χ( ·)表示指示函数，括号内大于零则 χ( ·)取值为1，否则为0 。 4.根据权利要求3所述的一种基于双密度的无监督数据可分性评价方法，其特征在于， Wij＝euclidean_dist(xi,xj)，其中xi和xj分别为数据点i和数据点j的特征向量， euclidean_dist( ·,·)代表计算两个数据点欧氏距离的函数。 5.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，步骤S3中，数据点 i的双密度指标的比值dif fi的计算公式为：其中， δi为同类点密度， φi为异类点密度， ε是防止分母为0的极小正数，取值在 0.001～ 0.1之间。 6.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，步骤S4中，可分离性分数score的计算公式为： diffi为数据点 i的双密度指标的比值， N 为待评价数据集中包含的数据点个数。 7.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，权　利　要　求　书 1/2 页 2 CN 115526237 A 2步骤S6中，分类网络为卷积神经网络 CNN或多层感知机 MLP。 8.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，步骤S6中，利用分类网络训练S1中的聚类标签，得到预测的聚类标签的方法为： S6.1将步骤S1中的全部数据点的聚类标签作为真值标签ytrue； S6.2将真值标签ytrue和数据点的原始数据特征X输入分类网络，使分类网络完成一轮前向传播后得到预测的类别标签ypred，保留分类网络中特征提取层的输出Xfeat，并通过损失函数得到本轮前向传播的损失值 LOSS； S6.3基于损失值LOSS通过反向传播完成分类网络参数的更新，并令X＝Xfeat， ytrue＝ ypred； S6.4循环执行步骤S6.2～S6.3至预定训练轮次后，分类网络输出预测的类别标签ypred，即为预测的聚类标签。 9.根据权利要求8所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，损失函数其中， N为待评价数据集中包含的数据点个数， CroEnt( ·)表示交叉熵函数，和分别为数据点 i的真值标签和预测的类别标签， score为可分离性分数。 10.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法，其特征在于，利用可分离性分数评价待评价数据集的可分离性，可分离性分数越大，待评价数据集的可分离性越好。权　利　要　求　书 2/2 页 3 CN 115526237 A 3

专利 一种基于双密度的无监督数据可分性评价方法

专利一种基于双密度的无监督数据可分性评价方法