专利 一种基于机器学习的GitHub敏感信息泄露监控方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210991690.6 (22)申请日 2022.08.16 (71)申请人北京比特易湃信息技术有限公司地址 100044 北京市海淀区西直门外大街 168号腾达大厦0 3层17号 (72)发明人王庆阳　尹正航　李玲　张源　 (74)专利代理机构北京棘龙知识产权代理有限公司 11740 专利代理师周翠兰 (51)Int.Cl. G06F 21/55(2013.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06N 7/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于机器学习的GitHub敏感信息泄露监控方法 (57)摘要本申请公开了一种基于机器学习的GitHub 敏感信息泄露监控方法，所述基于机器学习的 GitHub敏感信息泄露监控方法包括如下步骤：样本信息处理，将输入的样本信息与数据库内部的信息进行比对，通过比对结果对输入的样本信息进行进行降噪、分词处理，同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来；文本算法分类； HMM概率预测；模型预测判定。 HMM隐马尔科夫模型的随机生成观测序列的过程，进而生成模型，降低了无关信息的干扰，提高了泄露代码数据的检测的准确率；通过提取泄露代码数据的相关特征信息来分析是否为敏感信息，可以规避不符合相关特征的数据；可以通过SVM和HMM两种模型综合判断是否为敏感信息泄露，大大增加检测准确率。权利要求书2页说明书6页附图4页 CN 115455407 A 2022.12.09 CN 115455407 A 1.一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述基于机器学习的GitHub敏感信息泄露监控方法包括如下步骤： (1)样本信息处理，将输入的样本信息与数据库内部的信息进行比对，通过比对结果对输入的样本信息进行进行降噪、分词处理，同时将敏感关键词、敏感端口号等敏感信息通过计算的逆词频率提取出来； (2)文本算法分类，利用SVM文本分类算法分类，主要是利用SVM支持向量机对敏感信息的数据集进行分类，同时对输入的样本数据进行分类； (3)HMM概率预测，利用HMM隐马尔可夫模型对敏感信息数据库内部的不同敏感样本的的数据集信息进行处理，实现敏感样本的概率预测； (4)模型预测判定，将SVM文本分类模型分类结果和HMM概率预测模型结果进行融合判定，并输出最终的预测结果。 2.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(1)中在样本信息处理前，要获取原始的泄露数据，将数据作为输入样本进行处理。 3.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(2)中在进行SVM线性分类时，设置最大进化代数，初始化粒子群，设定初始化速度和位置。编码计算，基于混沌理论算法生成种群，根据当前的初始种群利用SVM模型队训练集进行训练。模型训练结果作为下一步的参考值，根据结果计算适应度函数值，更新当前个体最优解和全局最优解，更新粒子速度和位置，此步骤粒子的速度和位置的结果作为下一步的终止条件。 4.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(2)中根据步骤上述的结果决定判断是否满足终止条件，若是满足，则停止循环，继续往下走，若是不满足，则回到第一步继续循环计算。根据上述步骤得到最优的算法结果调试参数，作为下一步的输入结果，将参数输入SVM模型进行最后的模型训练，使用测试集对SVM模型进行测试训练，同时查看对应的测试结果。 5.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(3)中将样本信息进行分类，分为N种样本信息，分别对应HMM算法模型的λi ～ λn，根据判断条件判断是否已经所有的分配信息读取完成，如果没有读取完就继续读取，读取完成就继续进入训练样本，采集第i种样本信息的特征，提取相关的特征信息，用户HMM 算法模型的训练。 6.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(3)中初始化HMM算法模型，设置对应的初始的参数，采集的第i种样本信息，进行参数学习，根据分类的N种样本信息训练处的N种模型，输出最优的HMM算法模型参数，进行样本训练。 7.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(3)中根据训练的样本结果，输出训练样本的概率集合，找出概率最大值和最小值。 8.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(4)中将抓取到的泄露的代码数据，输入系统，将上述输入的数据进行相关权　利　要　求　书 1/2 页 2 CN 115455407 A 2特征的提取。 9.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(4)中对上述的数据特征提取结果，使用HMM预测算法模型进行概率预测，若在概率范围内就进入下一步骤，若未在概率范围内就直接结束。 10.根据权利要求1所述的一种基于机器学习的GitHub敏感信息泄露监控方法，其特征在于：所述步骤(4)中将数据的特征提取结果，使用SVM文本分类算法模型再次进行文本分类，若满足目标文本的特征信息，进入下一步骤，若不满足就直接结束，输出结果。权　利　要　求　书 2/2 页 3 CN 115455407 A 3

专利 一种基于机器学习的GitHub敏感信息泄露监控方法

专利一种基于机器学习的GitHub敏感信息泄露监控方法