iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210628458.6 (22)申请日 2022.06.06 (65)同一申请的已公布的文献号 申请公布号 CN 114708608 A (43)申请公布日 2022.07.05 (73)专利权人 浙商银行股份有限公司 地址 311200 浙江省杭州市萧 山区鸿宁路 1788号 专利权人 易企银 (杭州) 科技有限公司 (72)发明人 陈嘉俊 杨国正 吴美学 张敬之  臧铖  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 刘静 (51)Int.Cl. G06V 30/42(2022.01) G06F 16/215(2019.01) G06Q 40/02(2012.01) G06N 20/00(2019.01)(56)对比文件 CN 112396188 A,2021.02.23 CN 111275447 A,2020.0 6.12 CN 113139818 A,2021.07.20 CN 10751613 5 A,2017.12.26 CN 114416707 A,202 2.04.29 CN 114398995 A,202 2.04.26 CN 101320486 A,20 08.12.10 CN 111626279 A,2020.09.04 CN 110001224 A,2019.07.12 CN 112749731 A,2021.0 5.04 US 2020162312 A1,2020.0 5.21 CN 109886464 A,2019.0 6.14 CN 113269675 A,2021.08.17 US 20213195 60 A1,2021.10.14 US 2002184559 A1,20 02.12.05 JP 2001325449 A,2001.11.22 GB 0418523 D0,20 04.09.22 US 20191085 60 A1,2019.04.1 1 (续) 审查员 凌冰 (54)发明名称 一种银行票据全自动化特征工程方法及装 置 (57)摘要 本发明公开了一种银行票据全自动化特征 工程方法及装置, 该方法包括: 自动化票据识别; 自动化数据清洗, 形成基础数据集; 自动化特征 生成, 根据当前票据的身份数据和下游机器学习 分类任务类型, 从数据库中读取历史票据数据加 入基础数据集, 通过构建特征生成树生成新的票 据特征; 自动化特征选择, 通过将特征选择视为 二元优化问题, 分为靠近目标值和确定目标值两 个阶段进行特征选择。 本发明只需要在初始时设 置可调节参数, 后续流程皆可自动完成。 本发明 使用自动化特征工程能够节省人力、 提高效率, 有效为后续的银行票据机器学习分类任务提供 优质特征。 [转续页] 权利要求书4页 说明书11页 附图5页 CN 114708608 B 2022.09.16 CN 114708608 B (56)对比文件 US 2008004865 A1,2008.01.03 US 2020311611 A1,2020.10.01 US 2021271702 A1,2021.09.02 US 11176495 B1,2021.1 1.16 US 2021383407 A1,2021.12.09 刘桂雄等.基于深度学习的机 器视觉目标检 测算法及 在票据检测中应用. 《中国测试》 .2019, (第05期),全文. Wong, C 等.CARTMAP : a neural netw ork method for automated feature selecti on in financial time series forecasti ng. 《NEURAL COMPUTING & APPLICATIONS》 .2012,第21卷(第5 期), 田航.财务 票据图像处 理与智能信息识别研究. 《中国优秀硕士学位 论文全文数据库 信息科 技辑》 .2022,(第4期), 金美琳.征信数据甄别欺诈客户的机 器学习 方法研究. 《中国优秀硕士学位 论文全文数据库 信息科技 辑》 .2019,(第4期), Bo-YuanFeng.Automatic recogn ition of serial numbers i n bank notes. 《Pat tern Recognition》 .2014,(第8 期), Engdaw Ayalew Tes sfaw 等.Ethi opian Banknote Recogn ition and Fake Detecti on Using Support Vector Mac hine. 《PROC EEDINGS OF THE 2018 SE COND INTERNATIONAL CONFERENC E ON INVENTIVE COM MUNICATION AND COMPUTATIONAL TE CHNOLOGIES (ICIC CT)》 .2018,2/2 页 2[接上页] CN 114708608 B1.一种银 行票据全自动化特 征工程方法, 其特 征在于, 包括以下步骤: S1, 自动化票据识别: 收集票据图像, 对票据图像进行图像处理和敏感性处理, 获得原 始票据数据D0, 识别票据的业 务类型并自动归档; S2, 自动化数据清 洗: 对原始票据数据D0进行数据清 洗, 再进行数据脱敏处理, 形 成基础 数据集D1; S3, 自动化特征生成: 根据当前票据的身份数据和下游机器学习分类任务类型, 从数据 库中读取历史票据数据加入 基础数据集D1中; 根据基础数据集D1构建特征生成树, 根据特征 生成树生成新的票据特 征, 构成票据特 征集F; 包括: S31, 从基础数据集D1中提取基础特 征, 形成初始特 征集F0; S32, 构建特征转换函数集合 和概率权 重集合 , 其中, t_n为特征转换函数的个数, 特征转换函数transi 对应的概率权重为pi; 计算每个特征转换函数transi作用于初始特征集F0的时间消耗ti, 归 一化时间消耗值, 初始 化概率权重集合P; 将特征转换函数集合Trans和概率权重集合P依据 概率权重值从大到小进行排序; 设置构建特征生成树的最大时间消耗限制和最大 空间消耗 限制; S33, 构建特征生成树: 特征生成树的根节点为初始特征集F0; 按照概率权重集合P从特 征转换函数集合Trans中随机选择特征转换函数transi, 计算被选择特征转换函 数transi作 用于当前特征生成树中的每个节点的信息增益, 结合时间消耗和空间消耗计算被选择特征 转换函数transi作用于特征生成树中每个节点的总收益度; 更新本轮被选择特征转换函数 transi的概率权重pi, 将更新后的概率权重集合P重新归一化并排序; 选择总收益度值最高 的节点扩展特征生成树; 当剩余时间或剩余空间为0时, 停止构建特征生成树; 将特征生成 树的所有叶子节点取并集得到票据特 征集F; S4, 自动化特征选择: 将特征选择问题视为二元优化问题, 分为靠近目标值和确定目标 值两个阶段, 所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值 两个特征选择策略, 所述确定目标值阶段采用垂 直向确定目标值和随机游走确定目标值两 个特征选择策略, 最终得到银 行票据机器学习分类任务所需的票据特 征集F_SUB。 2.根据权利要求1所述的方法, 其特征在于, 步骤S1中, 所述图像处理包括自动去黑边、 自动去噪, 所述敏感性处 理包括敏感信息识别、 敏感信息遮挡。 3.根据权利要求1所述的方法, 其特征在于, 步骤S2中, 所述数据清洗包括对数据类型 分类、 异常值处 理、 文本编码。 4.根据权利要求1所述的方法, 其特征在于, 步骤S33中, 被选择特征转换函数transi作 用于特征生成树中节点Fj的信息增益 的计算公式如下: 其中, 为特征m对节点Fj的信息增益, M为新生 成的有效特征数; 单个特征对 特征集F 的信息增益 IG的计算公式如下:权 利 要 求 书 1/4 页 2 CN 114708608 B 3

.PDF文档 专利 一种银行票据全自动化特征工程方法及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种银行票据全自动化特征工程方法及装置 第 1 页 专利 一种银行票据全自动化特征工程方法及装置 第 2 页 专利 一种银行票据全自动化特征工程方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:20:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。