iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211033548.7 (22)申请日 2022.08.26 (71)申请人 河南大学 地址 475004 河南省开封市金明大道北段 河南大学金明校区 (72)发明人 王雅娣 张文波 左宪禹 谢毅  乔保军 张磊  (74)专利代理 机构 郑州芝麻知识产权代理事务 所(普通合伙) 41173 专利代理师 张丹丹 (51)Int.Cl. G06K 9/62(2022.01) G06N 7/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于JS散度与ADMM算法的无监督特征 选择方法 (57)摘要 本发明涉及无监督特征选择技术领域, 具体 涉及一种基于JS散度与ADMM算法的无监督特征 选择方法, 基于 Filter类型相关性得分向量与JS 散度构建优化目标函数, 通过优化目标函数可得 到高相关低冗余的特征子集, 其中相关性得分向 量在模型优化过程中会起到影响最终优化向量 相关性的作用, 而JS散度则在模型优化过程中起 到影响最终优化向量冗余度的作用, 基于特点最 终选择的特征子集将会同时具有相关性高冗余 度低的优点有利于提高模型构建的速度, 增强模 型的泛化能力, 减少过拟合风险, 并且可 以提高 模型的分类准确率。 同时对于优化问题求解耗时 的问题, 通过ADMM算法来减少求解优化问题的时 间, 在较短的时间内可以得到一个 较好的结果。 权利要求书1页 说明书6页 附图1页 CN 115374868 A 2022.11.22 CN 115374868 A 1.一种基于JS散度与ADM M算法的无监 督特征选择方法, 其特 征在于, 包括: 基于Filter特征选择算法, 获取 数据集的特 征得分向量; 通过直方图统计算法, 获取所述数据集中每个特征的概率分布, 并基于JS散度公式, 计 算得到冗余度矩阵; 将所述特 征得分向量和冗余度矩阵作为输入构建目标函数; 根据ADMM算法求解所述目标函数, 以进行 特征选择。 2.根据权利要求1所述的基于JS散度与ADM M算法的无监 督特征选择方法, 其特 征在于, 将所述特 征得分向量和冗余度矩阵作为输入构建目标函数, 包括: 目标函数为: 其中, λ为权 重系数, s为特 征得分向量, J为冗余度矩阵。 3.根据权利要求2所述的基于JS散度与ADM M算法的无监 督特征选择方法, 其特 征在于, 根据ADMM算法求解所述目标函数, 以进行 特征选择, 包括: 初始化 λ、 z和v, 设置超参数ρ 和 μ(, 设置最大迭代次数; 其中, z为变量, v为辅助变量; 根据所述目标函数, 构建增广拉格朗日函数: 其中, αt和 αz为拉格朗日乘子; 对于第k次迭代, 通过 计算vk; 通过 计算 zk; 其中, inv()表示 求逆操作, 1表示所有分量都为1的列向量, E表示单位矩阵; 通过ρk= μ ρk‑1更新ρk; 通过αtk=αtk‑1+ρk(zkT1‑1)更新αtk; 通过αzk=αzk‑1+ρk(zk‑vk).更新αzk; 当迭代完成后, 获取优化后的得分向量; 选取所述优化后的得分向量中得分最高的预设个数的特 征。 4.根据权利要求3所述的基于JS散度与ADM M算法的无监 督特征选择方法, 其特 征在于, 迭代完成的条件为: 第k次迭代对应的目标函数值与第 k‑1次迭代对应的目标函数值的 差值小于预设阈值, 或者迭代次数达 到所述最大迭代次数。权 利 要 求 书 1/1 页 2 CN 115374868 A 2一种基于 JS散度与ADM M算法的无 监督特征选择方 法 技术领域 [0001]本发明涉及无监督特征选择技术领域, 具体涉及一种基于 JS散度与ADMM算法的无 监督特征选择方法。 背景技术 [0002]信息技术的快速发展能够很轻松的获取海量的数据, 如何从海量数据中获取关键 信息也越来越成为人们关注的焦点。 特别在数据挖掘以及机器学习 领域, 海量数据可以带 来丰富的训练样 本, 但是同时可能会造成维度灾难, 所以如何从庞大、 冗余的数据集合中选 择最关键的特 征子集从而提高机器学习的效率和模型效果已经成为当前最热的一个话题。 [0003]无监督特征选择可大致分为: Filters(过滤型)特征选择、 Wrappers(包裹型)特征 选择、 Embedded(嵌入 型), 其中Filter的优点在于速度快, 但是与之对应的缺点是根据得分 选择的特征子集所训练的模 型的预测效果往往不能够达到一个较高的结果。 Wrappers型特 征选择的特点在于根据模型预测结果来进行特征的选择, 毫无疑问wrapper型特征选择能 够有较高的模型预测精度, 但是wrapper型特征选择通常是有着较高的时间消耗。 Embedded 特征选择方法的特点是特征选择与模型训练同时进行的, 其模型预测精度以及时间消耗是 在Filter与Embeded之间。 [0004]Filter特征选择方法通过分析特征子集的内部特点来衡量特征的好坏, 这类方法 通常根据某种规则来对每个特征进行相关性评价, 最后得到一个相关性评分向量, 最后根 据阈值来选择得分最高的特征子集。 Filter特征选择方法以其简单、 高效性、 可应用性强等 特点成为当前主要的特征选择方法之一, 因此有大量关于对其研究的文章。 但是现有的处 理方式中, 在选择特征时大多只考虑特征的相关性却往往会忽略所选择特征子集的相似 性, 特征间相似性越高往往就代表着冗余, 在有限个数 的子集中不能带来更多的有用的信 息, 因此在特征选择时希望选择 的特征子集在具有较高相关性的同时, 也具有相对较小的 冗余度。 [0005]对于优化问题常用的方法往往需要计算目标函数的梯度或者Hessian矩阵, 这就 使得计算复杂且耗时, 同时容易陷入局部最优解。 因此减少优化所耗时间的同时能够达到 较高的收敛效果, 关系着所提出的方法是否能够很好的应用。 发明内容 [0006]有鉴于此, 为了解决上述技术问题, 本发明提供一种基于JS散度与ADMM算法的无 监督特征选择方法。 [0007]所采用的技 术方案具体如下: [0008]一种基于JS散度与ADM M算法的无监 督特征选择方法, 包括: [0009]基于Filter特征选择算法, 获取 数据集的特 征得分向量; [0010]通过直方图统计算法, 获取所述数据集中每个特征的概率分布, 并基于JS散度公 式, 计算得到 冗余度矩阵;说 明 书 1/6 页 3 CN 115374868 A 3

.PDF文档 专利 一种基于JS散度与ADMM算法的无监督特征选择方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于JS散度与ADMM算法的无监督特征选择方法 第 1 页 专利 一种基于JS散度与ADMM算法的无监督特征选择方法 第 2 页 专利 一种基于JS散度与ADMM算法的无监督特征选择方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:00:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。