(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211198977.X
(22)申请日 2022.09.29
(71)申请人 中国科学院软件研究所
地址 100190 北京市海淀区中关村南四街 4
号
(72)发明人 侯朋朋 陈果 张开创 于佳耕
武延军
(74)专利代理 机构 北京君尚知识产权代理有限
公司 11200
专利代理师 陈艳
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06F 40/216(2020.01)
G06N 3/04(2006.01)G06F 9/445(2018.01)
(54)发明名称
一种自动化内核配 置项分类方法及装置
(57)摘要
本发明公开了一种自动的内核配置项分类
方法及装置。 所述方法包括: 构建名字异构图、 路
径异构图、 依赖关系异构图和帮助异构图; 利用
图卷积神经网络分别对名字异构图、 路径异构
图、 依赖关系异构图和帮助异构图进行训练, 以
获取各异构图中内核配置项节 点的特征向量; 融
合各异构图中内核配置项节点的特征向量, 并对
融合结果分类, 得到所述内核配置项的分类结
果。 本发明为内核配 置项的设置提供辅助支持。
权利要求书3页 说明书8页 附图1页
CN 115422361 A
2022.12.02
CN 115422361 A
1.一种自动化内核配置项分类方法, 其特 征在于, 所述方法包括:
获取系统软件的内核配置项的名字信息、 路径信息和帮助信息;
构建名字异构图; 所述名字异构图表示所述内核配置项与所述名字信息的关联、 以及
所述名字信息之间的关联;
构建路径异构图; 所述路径异构图表示所述内核配置项与所述路径信息的关联、 以及
所述路径信息之间的关联;
构建依赖关系异构图; 所述依赖关系异构图表示所述内核配置项与 所述名字信 息的关
联、 所述名字信息之间的关联、 以及所述内核配置项之间的关联;
构建帮助异构图; 所述帮助异构图表示所述内核配置项与所述帮助信息的关联、 以及
所述帮助信息之间的关联;
利用图卷积神经网络分别对所述名字异构图、 所述路径异构图、 所述依赖关系异构图
和帮助异构图进 行训练, 以获取所述名字异构图中内核配置项节 点的特征向量hname,i、 所述
路径异构图中内核配置项节点的特征向量hpath,i、 所述依赖关系异构图中内核配置项节点
的特征向量hdependence,i、 所述帮助异构图中内核配置项节点的特征向量hhelp,i; 其中, i表示
内核配置项的序号;
融合所述特征向量hname,i、 特征向量hpath,i、 特征向量hdependence,i以及特征向量hhelp,i, 并
对融合结果分类, 得到所述内核配置项的分类结果。
2.如权利要求1所述的方法, 其特 征在于, 所述构建名字异构图, 包括:
切分每一内核配置项的所述名字信息, 得到若干个subname词;
基于所述subn ame词以及 所述内核配置项, 得到所述名字异构图的subn ame词节点与内
核配置项节点;
基于所述 内核配置项的名字信息中所述subn ame词的出现信息, 构建所述subn ame词节
点与内核配置项节 点之间的边, 并根据所述subname词在 对应的内核配置项中的词频 ‑逆文
档频率, 得到所述边的权重; 其中所述词频为所述subname词在 对应的名字信息中出现的次
数, 所述逆文档频率 为所述subname词的内核配置项数量的对数比例的倒数;
基于subname词袋中的词共现信息, 构建subname词节点之间的边, 并利用逐点互信息
计算两个subname词节点之间的权重; 其中所述subname词袋基于所有内核配置项的
subname词得到 。
3.如权利要求2所述的方法, 其特征在于, 所述利用图卷积神经网络分别对所述名字异
构图进行训练, 以获取 所述名字异构图中 内核配置项节点的特 征向量hname, 包括:
通过预训练语言模型获取 所述subname词节点的初始特 征向量;
将所述内核配置项节点对应的所述subname词节点的初始特征向量加权, 得到该内核
配置项节点的初始特 征向量;
基于所述subname词节点和所述内核配置项节点的初始特征向量, 利用图卷积神经网
络对所述名字异构图进行训练, 得到所述名字异构图中 内核配置项节点的特 征向量hname。
4.如权利要求1所述的方法, 其特 征在于, 所述构建路径 异构图, 包括:
切分每一内核配置项的所述路径信息, 得到若干subdir词;
基于所述subdir词以及 所述内核配置项, 得到所述路径异构图的subdir词节点与内核
配置项节点;权 利 要 求 书 1/3 页
2
CN 115422361 A
2基于所述 内核配置项的路径信息中所述subdir词的出现信息, 构 建所述subdir词节点
与内核配置项节点之间的边, 并根据所述subdir词在对应的内核配置项中的词频 ‑逆文档
频率, 得到所述边的权重; 其中所述词频为所述subdir词在对应的名字信息中出现的次数,
所述逆文档频率 为所述subdir词的内核配置项数量的对数比例的倒数;
基于subdir词袋中的词共现信息, 构建subdir词节点之间的边, 并利用逐点互信息计
算两个subdir词节 点之间的权重; 其中所述subdir词袋基于所有内核配置项的subdir词得
到。
5.如权利要求1所述的方法, 其特 征在于, 所述构建依赖关系异构图, 包括:
切分每一内核配置项的所述名字信息, 得到若干个subname词;
基于所述subn ame词以及 所述内核配置项, 得到所述依赖关系 异构图中的subn ame词节
点与内核配置项节点;
基于所述 内核配置项的名字信息中所述subn ame词的出现信息, 构建所述subn ame词节
点与内核配置项节 点之间的边, 并根据所述subname词在 对应的内核配置项中的词频 ‑逆文
档频率, 得到所述边的权重; 其中所述词频为所述subname词在 对应的名字信息中出现的次
数, 所述逆文档频率 为所述subname词的内核配置项数量的对数比例的倒数;
基于subname词袋中的词共现信息, 构建subname词节点之间的边, 并利用逐点互信息
计算两个subname词节点之间的权重; 其中所述subname词袋基于所有内核配置项的
subname词得到;
基于两个内核配置项之间的相似度, 得到内核配置项节点之间的边和权重; 其中, 所述
相似度基于名字信息的JAC CARD系数和名字信息的JAC CARD系数 得到。
6.如权利要求1所述的方法, 其特 征在于, 所述构建帮助异构图, 包括:
切分每一内核配置项的所述名字信息, 得到若干个subname词
去除内核配置项的帮助信息中的无用符号和常用词之后, 切分帮助信息, 并根据切分
结果和所述subname词, 得到subw ord词袋;
基于所述subword词袋, 获取所述内核配置项的subword词; 其 中, 在所述内核配置项有
帮助信息的情况下, 将对应的帮助信息切分结果和subname词作为subword词; 在所述内核
配置项没有帮助信息的情况 下, 将对应的subname词作为subw ord词;
基于所述subword词以及 所述内核配置项, 得到所述依赖关系 异构图中的subword词节
点与内核配置项节点;
基于所述 内核配置项对应的所述subword词的出现信息, 构建所述subword词节点与内
核配置项节点之间的边, 并根据所述subword词在对应的内核配置项中的词频 ‑逆文档频
率, 得到所述边的权重; 其中所述词频为所述subword词在对应的名字信息中出现的次数,
所述逆文档频率 为所述subw ord词的内核配置项数量的对数比例的倒数;
基于subword词袋中的词共现信息, 构建subword词节点之间的边, 并利用逐点互信息
计算两个subw ord词节点之间的权 重。
7.如权利要求1所述的方法, 其特征在于, 所述融合所述特征向量hname,i、 特征向量
hpath,i、 特征向量hdependence,i以及特征向量hhelp,i, 并对融合结果分类, 得到所述内核配置项
的分类结果, 包括:
将特征向量h* ,i输入多层感知机, 得到最优分向量h ′* ,i; 其中*∈{name,path,权 利 要 求 书 2/3 页
3
CN 115422361 A
3
专利 一种自动化内核配置项分类方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:42上传分享