(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211127614.7
(22)申请日 2022.09.16
(71)申请人 兴业银行股份有限公司
地址 350014 福建省福州市台江区江滨中
大道398号兴业银行 大厦
申请人 兴业数字金融服 务(上海)股份有限
公司
(72)发明人 徐春运 张金龙 余青青 全彬元
唐骁 胡飞 黎龙 刘俊 熊帅
(74)专利代理 机构 上海段和段律师事务所
31334
专利代理师 高璀璀
(51)Int.Cl.
G06F 21/55(2013.01)
G06F 16/35(2019.01)G06F 40/242(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
(54)发明名称
基于支持向量机的敏感文件预测方法、 系
统、 介质及终端
(57)摘要
本发明提供了一种基于支持向量机的敏感
文件预测方法、 系统、 介质及终端, 包括: 训练敏
感文件样本库, 生成样本库资源模型; 监控进程
截获外发文件并进行分词处理, 根据所述样本库
资源模型进行预测; 人工复核所述预测的结果,
判断所述外发文件是否为敏感文件, 若是, 则拦
截; 若否, 则重新训练并更新样本库资源模型。 本
发明采用进程监控和支持向量机算法, 通过训练
已有敏感文件样本库,在线或离线生成敏感文件
样本模型, 然后再通过加载已生成的样本模型,
实时监控并拦截用户外发的涉密文件, 减少了敏
感文件外泄所造成的损失。
权利要求书2页 说明书6页 附图1页
CN 115455410 A
2022.12.09
CN 115455410 A
1.一种基于支持向量机的敏感文件预测方法, 其特 征在于, 包括:
步骤S1: 训练敏感文件样本库, 生成样本库资源 模型;
步骤S2: 通过监控进程截获外发文件并进行分词处理, 根据所述样本库资源模型进行
预测;
步骤S3: 人工复核所述预测的结果, 判断所述外发文件是否为敏感文件, 若是, 则拦截;
若否, 则重新训练并更新样本库资源 模型。
2.根据权利要求1所述的基于支持向量机的敏感文件预测方法, 其特征在于, 所述训练
包括: 在线训练或者离线训练;
所述敏感文件样本库是根据业 务需求确认需要管控的机密文件生成的。
3.根据权利要求1所述的基于支持向量机的敏感文件预测方法, 其特征在于, 所述步骤
S1包括:
步骤S1.1: 获取 敏感文件样本库;
步骤S1.2: 对所述敏感文件样本库进行样本库清洗归类后, 进行分词处理; 得到支持 向
量机SVM所需要的分词训练参数组合;
步骤S1.3: 选取最优分词训练参数组合;
步骤S1.4: 根据所述最优分词训练参数组合进行支持 向量机SVM训练, 生成样本库资源
模型。
4.根据权利要求1所述的基于支持向量机的敏感文件预测方法, 其特征在于, 所述步骤
S2包括:
步骤S2.1: 解析截获的外发文件, 并对所述外发文件进行分词处理, 得到支持向量机
SVM所需要的分词训练参数组合;
步骤S2.2: 加载步骤S1生成的样本库资源模型, 读取支持 向量机SVM预测参数以及分词
向量信息;
步骤S2.3: 根据所述支持 向量机SVM预测参数以及分词向量信息进行预测, 得到外发文
件与样本资源 模型的相似度。
5.根据权利要求1所述的基于支持向量机的敏感文件预测方法, 其特征在于, 所述步骤
S3包括:
步骤S3.1: 判断外发文件是敏感文件, 但却没有预测到, 则定义为漏报文件并触发步骤
S3.2; 若外发文件不是敏感文件, 却被预测成敏感文件, 则定义为误报文件并触发步骤
S3.3;
步骤S3.2: 将所述漏报文件 存储至正向样本库;
步骤S3.3: 将所述 误报文件 存储至反向样本库;
步骤S3.4: 将更新后的样本库重新清洗归类后进行分词处理, 得到支持 向量机SVM所需
要的分词训练参数组合;
步骤S3.5: 选取最优分词训练参数组合;
步骤S3.6: 根据所述最优分词训练参数组合进行支持 向量机SVM训练, 生成新的样本库
资源模型并更新。
6.根据权利要求3至5任一项所述的基于支持向量机的敏感文件预测方法, 其特征在
于, 所述分词处 理包括:权 利 要 求 书 1/2 页
2
CN 115455410 A
2步骤1: 加载分词 词典, 对敏感文件进行文件分词, 得到对应的分词后的词组;
步骤2: 将所述分词后的词组词干化, 将分词中名词的复数去掉,并统一动词的不同时
态;
步骤3: 将所述分词后的词组向量化, 提取文件特征权重,并做归一化处理,然后将这些
特征值构造成SVM所需的向量格式。
7.根据权利要求6所述的基于支持向量机的敏感文件预测方法, 其特征在于, 所述分词
词典包括停用词 词典、 用户自定义词典、 默认分词 词典。
8.一种基于支持向量机的敏感文件预测系统, 其特 征在于, 包括:
模块M1: 训练敏感文件样本库, 生成样本库资源 模型;
模块M2: 监控进程截获外发文件并进行分词处 理, 根据所述样本库资源 模型进行 预测;
模块M3: 人工复核所述预测的结果, 判断所述外发文件是否为敏感文件, 若是, 则拦截;
若否, 则重新训练并更新样本库资源 模型。
9.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序被处
理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种智能移动终端, 其特征在于, 包括权利要求9所述的存储有计算机程序的计算
机可读存 储介质, 或者包括权利要求8所述的基于支持向量机的敏感文件预测系统。权 利 要 求 书 2/2 页
3
CN 115455410 A
3
专利 基于支持向量机的敏感文件预测方法、系统、介质及终端
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:21上传分享