(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210892597.X
(22)申请日 2022.07.27
(71)申请人 天津市国瑞数码安全系统股份有限
公司
地址 300392 天津市西青区华苑产业区海
泰绿色产业基地K1-1- 601室
(72)发明人 李新 胡文波 段凯
(74)专利代理 机构 北京秉文同创知识产权代理
事务所(普通 合伙) 11859
专利代理师 孙富利 张文武
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06N 3/04(2006.01)G06F 16/28(2019.01)
G06F 16/26(2019.01)
(54)发明名称
基于语义分析的威胁情 报提取方法和系统
(57)摘要
本发明提供一种基于语义分析的威胁情报
提取方法和系统, 由于在现有的威胁情报分析的
基础上, 通过改进使用两种网络结构得到增强的
语义特征, 以及改进实体抽取的嵌入层处理, 可
以准确标注实体类别和边界, 再改进 LSTM层实现
得到隐藏状态, 进一步得到隐藏状态对应的语义
特征,克服了现有的关系抽取通 常仅使用单一的
深度学习模型, 无法捕获完整的语义特征, 以及
实体之间存在有大量的隐式关系, 现有的模型难
以有效捕获隐式关系的语义特 征的问题。
权利要求书2页 说明书6页 附图1页
CN 115329770 A
2022.11.11
CN 115329770 A
1.一种基于语义分析的威胁情 报提取方法, 其特 征在于, 所述方法包括:
从不同的传感设备、 中转设备、 开源平台和网络侧设备处采集状态信息、 域名信息、 链
接地址和报文数据, 作为 开源威胁情 报数据;
对所述开源威胁情报数据进行初始化处理, 基于主题、 关键字、 长度作为特征, 采用支
持向量机算法进行文本分类, 滤除所述开源威胁情报数据中的噪音数据, 并以句 子为单位
进行分割处 理, 自动标注标识信息, 得到威胁情 报库;
从所述威胁情报库中按照预定顺序提取语句, 分别输入实体抽取模块和语义分析模
块;
所述语义分析模块将输入的所述语句按单词降低维度, 并与 连续空间中的向量一一映
射, 作为词级别的语义特 征, 得到词特 征;
根据前向和后向分别两次调用GRU网络结构, 将所述词特征输入两次调用的GRU网络结
构, 将两次的输出结果拼接后得到当前的全局 语义信息, 将所述词特征输入CNN网络结构,
得到当前的局部语义信息;
将所述全局语义信息和 局部语义信息按时间进行融合, 得到增强的语义特 征;
所述实体抽取模块根据标注, 将隶属的开头单词、 实体后续单词和非实体单词送入不
同的嵌入层, 经过处理后送入对应的LSTM层, 所述处理包括输入的所述语句降低维度检测,
并将隶属的开头单词添加指引, 指向对应表示实体结束的单词, 所述指向依据降低 维度检
测的损失函数, 通过求 解该损失函数的最优解, 得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后, 计算得到当前的隐藏向量, 所述隐藏向量分
为前向隐藏向量和后向隐藏向量, 将所述前向隐藏向量与后向隐藏向量连接起来, 得到隐
藏状态, 再将所述隐藏状态分别送入解码层和所述语义分析模块, 所述解码层引入标签的
转移概率算法, 将所述标注作为标签项, 根据计算的概率值, 预测得到有关实体的映射关
系, 所述语义分析模块输出隐藏状态对应的第二语义特 征;
将所述有关实体的映射关系、 第 二语义特征和所述增强的语义特征一起录入可视化模
块, 展示威胁情报实体的知识图谱, 提供 给用户按实体关系或语义 查询提取。
2.根据权利要求1所述的方法, 其特征在于: 所述采集包括根据信息来源的历史记录,
对不同的信息来源给出了不同的评分; 还包括根据预先设置的情报类型, 侧重采集所述情
报类型对应的信息, 动态将与所述情报类型相关度低的信息设置为冗余信息, 在初始化处
理中清除。
3.根据权利要求1所述的方法, 其特征在于: 所述采集包括提取要素, 判断发现的要素
是否与当前热门安全事件相关, 如果是则在要素中标记热门安全事件摘要, 并将多个与该
热门安全 事件相关的要素进行关联, 进行 数据融合。
4.根据权利要求2或3任一项所述的方法, 其特征在于: 所述指向对应表示实体结束的
单词后, 确定实体边界, 用属性加密算法 隔离不同的实体边界, 实现不同的实体边界访问控
制, 按所述实体边界进行查询和判断报警。
5.一种基于语义分析的威胁情 报提取系统, 其特 征在于, 所述系统包括:
采集模块, 用于从不同的传感设备、 中转设备、 开源平台和网络侧设备处采集状态信
息、 域名信息、 链接地址和报文数据, 作为 开源威胁情 报数据;
初始化模块, 用于对所述开源威胁情报数据进行初始化处理, 基于主题、 关键字、 长度权 利 要 求 书 1/2 页
2
CN 115329770 A
2作为特征, 采用支持向量机算法进行文本 分类, 滤除所述开源威胁情报数据中的噪音 数据,
并以句子为单位进行分割处 理, 自动标注标识信息, 得到威胁情 报库;
中转模块, 用于从所述威胁情报库中按照预定顺序提取语句, 分别输入实体抽取模块
和语义分析模块;
语义分析模块, 用于将输入的所述语句按单词降低维度, 并与连续空间中的向量一一
映射, 作为词级别的语义特 征, 得到词特 征;
根据前向和后向分别两次调用GRU网络结构, 将所述词特征输入两次调用的GRU网络结
构, 将两次的输出结果拼接后得到当前的全局 语义信息, 将所述词特征输入CNN网络结构,
得到当前的局部语义信息;
将所述全局语义信息和 局部语义信息按时间进行融合, 得到增强的语义特 征;
实体抽取模块, 用于根据 标注, 将隶属的开头单词、 实体后 续单词和非实体单词送入不
同的嵌入层, 经过处理后送入对应的LSTM层, 所述处理包括输入的所述语句降低维度检测,
并将隶属的开头单词添加指引, 指向对应表示实体结束的单词, 所述指向依据降低 维度检
测的损失函数, 通过求 解该损失函数的最优解, 得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后, 计算得到当前的隐藏向量, 所述隐藏向量分
为前向隐藏向量和后向隐藏向量, 将所述前向隐藏向量与后向隐藏向量连接起来, 得到隐
藏状态, 再将所述隐藏状态分别送入解码层和所述语义分析模块, 所述解码层引入标签的
转移概率算法, 将所述标注作为标签项, 根据计算的概率值, 预测得到有关实体的映射关
系, 所述语义分析模块输出隐藏状态对应的第二语义特 征;
可视化模块, 用于将所述有关实体的映射关系、 第二语义特征和所述增强的语义特征
一起录入, 展示 威胁情报实体的知识图谱, 提供 给用户按实体关系或语义 查询提取。
6.一种基于语义分析的威胁情报提取系统, 其特征在于, 所述系统包括处理器以及存
储器:
所述存储器用于存 储程序代码, 并将所述 程序代码传输给 所述处理器;
所述处理器用于根据所述程序代码中的指令执行实现权利要求1 ‑4任一项所述的方
法。
7.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序代
码, 所述程序代码用于执 行实现权利要求1 ‑4任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115329770 A
3
专利 基于语义分析的威胁情报提取方法和系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:27上传分享