iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211017912.0 (22)申请日 2022.08.24 (71)申请人 中电鸿信 信息科技有限公司 地址 210029 江苏省南京市 鼓楼区汉中路 268号 (72)发明人 袁为捷 敬习飞 查文杰 康书恒 潘孙翔 (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 戴朝荣 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2458(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01)G06F 9/50(2006.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于Spark分布式数据挖掘算法封装与 调参方法 (57)摘要 本发明提供一种基于Spar k分布式数据挖掘 算法封装与调参方法, 对spark机器学习算法抽 象出四类通用参数, 基于算法配置, 完成抽象参 数针对性赋值; 根据数据存储、 算法设置和应用 场景, 将同一种算法的数据输入参数、 算法参数 和算法输 出参数设置为不同形式; 将不同算法运 行评估结果存储为算法执行结果表, 对抽象参数 不同赋值后, 监控算法每次调用记录及其评估结 果后自定义辅助输出; 通过监控辅助输出对算法 完成调参, 获取运行效果。 本发明将算法的调参 与输入数据、 硬件条件、 软件环境相分离, 通过配 置完善算法实体; 算法可自定义算法并将其封装 打包, 支持算法包及其信息的新增与修改; 在算 法打包时, 对其输出 结果进行自定义封装。 权利要求书2页 说明书4页 附图1页 CN 115357583 A 2022.11.18 CN 115357583 A 1.一种基于Spark分布式数据 挖掘算法封装与调参方法, 其特 征在于, 包括: 基于Spark机器学习算法抽象出数据输入参数、 算法参数、 算法输出参数和执行器参 数; 所述数据输入参数拼接完整的数据源, 获取算法执行输入 数据; 所述算法参数构建完整 的算法实体, 通过可视化设置参数, 调参后获取算法执行效果; 所述算法输出参数完善算法 执行结果后自定义输出, 生成算法成功执行后的反馈; 执行器参数设置算法执行计算机的 CPU和内存, 利用集群资源提高计算速度; 基于算法配置, 完成抽象参数针对性赋值; 根据数据存储、 算法设置和应用场景, 将同 一种算法的数据输入参数、 算法参数和算法输出参数设置为 不同形式; 将不同算法运行评估结果存储为算法执行结果表, 对抽象参数不同赋值后, 监控算法 每次调用记录及其评估结果后自定义辅助输出; 通过监控辅助输出对算法完成调参, 获取 运行效果。 2.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 对随机森林分类/回归算法封装, 数据输入参数设置训练数据占比、 测试数据占比、 数据 库、 数据表、 主键字段、 标签字段和特征字段; 算法参数设置树的最大深度和树的数量; 数据 输出参数设置模型文件 存储位置; 执 行器参数设置集群提交作业的硬件参数。 3.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 对二分K均值聚类算法封装, 数据输入参数设置数据库、 数据表、 主键字段和特征字段; 算法参数设置簇数、 最大迭代数和随机数种子; 数据输出参数设置类别预测结果; 执行器参 数设置集群提交作业的硬件参数。 4.根据权利要求2所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 主键字段只有一个字段, 特征字段为多个字段; 随机森林分类/回归算法输出参数设置 为分布式文件系统中模型文件 存放路径。 5.根据权利要求3所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 主键字段只有一个字段, 特征字段为多个字段; 二分K均值聚类算法输出参数为数据仓 库自定义聚类结果表。 6.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 数据输入参数设定为hive数仓、 hdfs文件和excel文件, 满足算法输入格式的数据输入 形式; 算法参数设定为文本直接输入和多固定值选择, 满足算法需求的参数形式; 算法输出 参数设定为PMML文件和hive数仓, 满足算法输出格式的数据输出形式; 执行器参数设定为 文本直接 输入, 满足替换默认硬件资源的数据输入形式。 7.根据权利要求4所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 赋值随机森林分类/回归算法的数据输入参数、 算法参数、 算法输出参数和执行器参数; 赋值数据输入参数, 对训练数据占比、 测试数据占比和连续型特征数量阈值的赋值类型为 数字, 其中训练数据占比与测试数据占比之和为1, 取值分别为0.7和0.3; 对数据库、 数据 表、 主键字段、 标签字段和特征字段的赋值通过业务hive仓库中选取获得; 赋值算法参数, 对树最大深度、 最大装箱数、 每个节点最少实例、 最小信息增益、 检查点间隔、 设置采样率、 采样种子、 树数量和特征子集选取策略根据训练数据的实际情况进行文本赋值; 赋值数据 输出参数, 训练完成的模型转换成PMML格式文件, 通过模型存储位置对PMML模型文件的生 成路径进行设置, 以需求的数据格式输入后实现相关的预测功能; 赋值执行器参数, 设置权 利 要 求 书 1/2 页 2 CN 115357583 A 2CPU和内存的执行器参数配置, spark.total.executor.cores用于设置Spark作业总共使用 多少个core, spark.executor.memory用于设置每 个Executor进程的内存。权 利 要 求 书 2/2 页 3 CN 115357583 A 3
专利 一种基于Spark分布式数据挖掘算法封装与调参方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-18 13:00:09
上传分享
举报
下载
原文档
(490.8 KB)
分享
友情链接
阿里 云上数字政府之数据安全建设指南.pdf
DB13-T 5628-2022 旅游节庆活动服务规范 河北省.pdf
TB-T 1670-2019 机车车辆车钩缓冲装置计量器具 15型车钩量具.pdf
DB34-T 3606-2020 电子政务外网市县网络总体构架设计规范 安徽省.pdf
GB-T 13797-2023 医用X射线管通用技术条件.pdf
GB-T 32211-2015 液相色谱用可变波长光度检测器的测试方法.pdf
DB32-T 3670-2019 律师政府法律顾问服务导则 江苏省.pdf
T-CEC 5072—2022 抽水蓄能电站高压压水试验规程.pdf
GB-T 39335-2020 信息安全技术 个人信息安全影响评估指南.pdf
GB-T 41274-2022 可编程控制系统内生安全体系架构.pdf
GM-T 0125.4-2022 JSON Web 密码应用语法规范 第4部分:密钥.pdf
NB-T 10882—2021 梯级水库群安全风险防控导则.pdf
GB 29384-2012 乙酰甲胺磷原药.pdf
GB-T 35536-2017 酵母浸出粉检测方法.pdf
GB-T 5741-2008 船用柴油机排气烟度测量方法.pdf
NY-T 3990-2021 数字果园建设规范 苹果.pdf
GB-T 41033-2021 CMOS集成电路抗辐射加固设计要求.pdf
GB-T 33092-2016 皮带运输机清扫器聚氨酯刮刀.pdf
tc260 物联网安全标准化白皮书 2019.pdf
GB-T 34611-2017 硬质聚氨酯喷涂聚乙烯缠绕预制直埋保温管.pdf
1
/
3
8
评价文档
赞助3元 点击下载(490.8 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。