iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211063008.3 (22)申请日 2022.08.31 (71)申请人 济南大学 地址 250022 山东省济南市 市中区南 辛庄 西路336号 (72)发明人 彭立志 李辉 郝逸航 吕梦达  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李圣梅 (51)Int.Cl. G06F 21/56(2013.01) G06F 16/901(2019.01) G06F 16/903(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01)H04L 61/4511(2022.01) (54)发明名称 一种基于词素特征的挖矿行为识别方法及 系统 (57)摘要 本发明公开了一种基于词素特征的挖矿行 为识别方法及系统, 属于网络空间安全技术领 域; 本发明从域名检测的角度, 引入词素的概念, 将快速正则匹配方法与挖矿行为模 型相结合, 实 现对加密货币挖矿行为的快速识别, 进一步实现 对挖矿行为的有效监管。 解决了现有技术中存在 “识别过程需要分析大量的样 本才能作出可靠判 断, 很难在挖矿行为刚发生时及时响应, 需要大 量数据对模 型进行训练, 模型优劣受数据集好坏 影响”的问题。 权利要求书2页 说明书7页 附图1页 CN 115438340 A 2022.12.06 CN 115438340 A 1.一种基于词素 特征的挖矿行为识别方法, 其特 征是, 包括: 获取挖矿域名数据集和正常域名数据集, 对挖矿域名数据集中的挖矿域名进行词素分 割, 构建挖矿域名词素库; 根据挖矿域名和挖矿域名词素, 对挖矿域名的正则表达式进行分组; 根据挖矿域名数据集和正常域名数据集, 划分训练数据和测试数据, 训练挖矿行为识 别模型; 提取DNS请求数据包中的待测域名, 通过正则表达式组和挖矿行为识别模型对待测域 名进行识别, 输出待测域名的类别, 判断发生DNS请求的主机是否存在或即将开始挖矿行 为。 2.如权利要求1所述的基于词素特征的挖矿行为识别方法, 其特征是, 所述通过正则表 达式组和挖矿行为识别模型对待测域名进行识别包括: 对待测域名进行词素分割, 获取词素集 合; 根据词素集合和含有挖矿域名语义词素的正则表达式组进行正则匹配, 若匹配成功, 则输出匹配结果; 若匹配不成功, 将待测域名输入挖矿行为识别模型; 挖矿行为识别模型提取待测域名的原始特征, 根据原始特征对待测域名进行分类, 输 出待测域名的类别和置信度。 3.如权利要求2所述的基于词素特征的挖矿行为识别方法, 其特征是, 若在挖矿行为识 别模型中将待测域名识别为挖矿域名且置信度大于第一阈值, 当大于第一阈值的挖矿域名 数量达到第二阈值时, 根据挖矿域名的词 素, 更新含有挖矿域名语义词素 的正则表达式组 和挖矿域名词素库。 4.如权利要求1所述的基于词素特征的挖矿行为识别方法, 其特征是, 所述挖矿行为识 别模型包括特 征提取模块、 特 征整合模块、 分类 器和更新缓冲区; 所述特征提取模块用于提取待测域名的原始特征, 所述原始特征包括网络特征、 字符 串特征和词素 特征; 所述特征整合模块用于整合所述网络特 征、 所述字符串特 征和所述词素 特征; 所述分类器用于获取整合后的特征, 根据整合后的特征和 原始特征集输出待测域名类 别和置信度; 所述更新缓冲区用于存储类别为挖矿域名且置信度 大于第一阈值的待测域名, 并在待 测域名的数量达到第二阈值时, 对待测 域名进行词素分割, 更新含有挖矿域名语义词 素的 正则表达式组和挖矿域名词素库。 5.如权利要求4所述的基于词素特征的挖矿行为识别方法, 其特征是, 所述原始特征集 包括挖矿域名数据集中挖矿域名和 正常域名数据集中正常域名的网络特征和字符串特征 以及挖矿域名的词素 特征。 6.如权利要求1所述的基于词素特征的挖矿行为识别方法, 其特征是, 所述对挖矿域名 数据集中的挖矿域名进行词素分割, 构建挖矿域名词素库包括: 根据挖矿域名进行词素分割, 根据每个词素统计结果, 将词素划分为挖矿语义词素和 普通词素; 其中, 当某个词素 的出现频次大于阈值, 该词素叫做挖矿语义词素; 当某个词素 出现频次小于或等于阈值, 该词素叫普通词素; 根据挖矿语义词素, 构建挖矿域名词素库。权 利 要 求 书 1/2 页 2 CN 115438340 A 27.如权利要求1所述的基于词素特征的挖矿行为识别方法, 其特征是, 所述根据挖矿域 名和挖矿域名词素, 对挖矿域名的正则表达式进行分组包括: 根据挖矿域名, 构建挖矿正则表达式库; 检测正则表达 式中是否含有挖矿语义词素, 将含有挖矿语义词素的正则表达式分为一 组, 将不含有挖矿语义词素的正则表达式分为 一组。 8.一种基于词素 特征的挖矿行为识别系统, 其特 征是, 包括: 数据库构建及模型训练模块, 被配置为: 获取挖矿域名数据集和正常域名数据集, 对挖 矿域名数据集中的挖矿域名进行词素分割, 构建挖矿域名词 素库; 根据挖矿域名 和挖矿域 名词素, 对挖矿域名的正则表达式进 行分组; 根据挖矿域名数据集和正常域名数据集, 划分 训练数据和 测试数据, 训练挖矿行为识别模型; 挖矿行为识别模块, 被配置为: 提取DNS请求数据包中的待测域名, 通过正则表达式组 和挖矿行为识别模 型对待测域名进 行识别, 输出待测域名的类别, 判断发生DNS请求的主机 是否存在或即将开始挖矿行为。 9.一种电子设备, 其特征在于, 包括存储器和处理器以及存储在存储器上并在处理器 上运行的计算机指 令, 所述计算机指 令被处理器运行时, 完成权利要求 1‑7任一项所述的步 骤。 10.一种计算机可读存储介质, 其特征在于, 用于存储计算机指令, 所述计算机指令被 处理器执行时, 完成权利要求1 ‑7任一项所述的 的步骤。权 利 要 求 书 2/2 页 3 CN 115438340 A 3

.PDF文档 专利 一种基于词素特征的挖矿行为识别方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于词素特征的挖矿行为识别方法及系统 第 1 页 专利 一种基于词素特征的挖矿行为识别方法及系统 第 2 页 专利 一种基于词素特征的挖矿行为识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:01:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。