专利 一种自动化内核配置项分类方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211198977.X (22)申请日 2022.09.29 (71)申请人中国科学院软件研究所地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人侯朋朋　陈果　张开创　于佳耕　武延军　 (74)专利代理机构北京君尚知识产权代理有限公司 11200 专利代理师陈艳 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01)G06F 9/445(2018.01) (54)发明名称一种自动化内核配置项分类方法及装置 (57)摘要本发明公开了一种自动的内核配置项分类方法及装置。所述方法包括：构建名字异构图、路径异构图、依赖关系异构图和帮助异构图；利用图卷积神经网络分别对名字异构图、路径异构图、依赖关系异构图和帮助异构图进行训练，以获取各异构图中内核配置项节点的特征向量；融合各异构图中内核配置项节点的特征向量，并对融合结果分类，得到所述内核配置项的分类结果。本发明为内核配置项的设置提供辅助支持。权利要求书3页说明书8页附图1页 CN 115422361 A 2022.12.02 CN 115422361 A 1.一种自动化内核配置项分类方法，其特征在于，所述方法包括：获取系统软件的内核配置项的名字信息、路径信息和帮助信息；构建名字异构图；所述名字异构图表示所述内核配置项与所述名字信息的关联、以及所述名字信息之间的关联；构建路径异构图；所述路径异构图表示所述内核配置项与所述路径信息的关联、以及所述路径信息之间的关联；构建依赖关系异构图；所述依赖关系异构图表示所述内核配置项与所述名字信息的关联、所述名字信息之间的关联、以及所述内核配置项之间的关联；构建帮助异构图；所述帮助异构图表示所述内核配置项与所述帮助信息的关联、以及所述帮助信息之间的关联；利用图卷积神经网络分别对所述名字异构图、所述路径异构图、所述依赖关系异构图和帮助异构图进行训练，以获取所述名字异构图中内核配置项节点的特征向量hname,i、所述路径异构图中内核配置项节点的特征向量hpath,i、所述依赖关系异构图中内核配置项节点的特征向量hdependence,i、所述帮助异构图中内核配置项节点的特征向量hhelp,i；其中， i表示内核配置项的序号；融合所述特征向量hname,i、特征向量hpath,i、特征向量hdependence,i以及特征向量hhelp,i，并对融合结果分类，得到所述内核配置项的分类结果。 2.如权利要求1所述的方法，其特征在于，所述构建名字异构图，包括：切分每一内核配置项的所述名字信息，得到若干个subname词；基于所述subn ame词以及所述内核配置项，得到所述名字异构图的subn ame词节点与内核配置项节点；基于所述内核配置项的名字信息中所述subn ame词的出现信息，构建所述subn ame词节点与内核配置项节点之间的边，并根据所述subname词在对应的内核配置项中的词频 ‑逆文档频率，得到所述边的权重；其中所述词频为所述subname词在对应的名字信息中出现的次数，所述逆文档频率为所述subname词的内核配置项数量的对数比例的倒数；基于subname词袋中的词共现信息，构建subname词节点之间的边，并利用逐点互信息计算两个subname词节点之间的权重；其中所述subname词袋基于所有内核配置项的 subname词得到。 3.如权利要求2所述的方法，其特征在于，所述利用图卷积神经网络分别对所述名字异构图进行训练，以获取所述名字异构图中内核配置项节点的特征向量hname，包括：通过预训练语言模型获取所述subname词节点的初始特征向量；将所述内核配置项节点对应的所述subname词节点的初始特征向量加权，得到该内核配置项节点的初始特征向量；基于所述subname词节点和所述内核配置项节点的初始特征向量，利用图卷积神经网络对所述名字异构图进行训练，得到所述名字异构图中内核配置项节点的特征向量hname。 4.如权利要求1所述的方法，其特征在于，所述构建路径异构图，包括：切分每一内核配置项的所述路径信息，得到若干subdir词；基于所述subdir词以及所述内核配置项，得到所述路径异构图的subdir词节点与内核配置项节点；权　利　要　求　书 1/3 页 2 CN 115422361 A 2基于所述内核配置项的路径信息中所述subdir词的出现信息，构建所述subdir词节点与内核配置项节点之间的边，并根据所述subdir词在对应的内核配置项中的词频 ‑逆文档频率，得到所述边的权重；其中所述词频为所述subdir词在对应的名字信息中出现的次数，所述逆文档频率为所述subdir词的内核配置项数量的对数比例的倒数；基于subdir词袋中的词共现信息，构建subdir词节点之间的边，并利用逐点互信息计算两个subdir词节点之间的权重；其中所述subdir词袋基于所有内核配置项的subdir词得到。 5.如权利要求1所述的方法，其特征在于，所述构建依赖关系异构图，包括：切分每一内核配置项的所述名字信息，得到若干个subname词；基于所述subn ame词以及所述内核配置项，得到所述依赖关系异构图中的subn ame词节点与内核配置项节点；基于所述内核配置项的名字信息中所述subn ame词的出现信息，构建所述subn ame词节点与内核配置项节点之间的边，并根据所述subname词在对应的内核配置项中的词频 ‑逆文档频率，得到所述边的权重；其中所述词频为所述subname词在对应的名字信息中出现的次数，所述逆文档频率为所述subname词的内核配置项数量的对数比例的倒数；基于subname词袋中的词共现信息，构建subname词节点之间的边，并利用逐点互信息计算两个subname词节点之间的权重；其中所述subname词袋基于所有内核配置项的 subname词得到；基于两个内核配置项之间的相似度，得到内核配置项节点之间的边和权重；其中，所述相似度基于名字信息的JAC CARD系数和名字信息的JAC CARD系数得到。 6.如权利要求1所述的方法，其特征在于，所述构建帮助异构图，包括：切分每一内核配置项的所述名字信息，得到若干个subname词去除内核配置项的帮助信息中的无用符号和常用词之后，切分帮助信息，并根据切分结果和所述subname词，得到subw ord词袋；基于所述subword词袋，获取所述内核配置项的subword词；其中，在所述内核配置项有帮助信息的情况下，将对应的帮助信息切分结果和subname词作为subword词；在所述内核配置项没有帮助信息的情况下，将对应的subname词作为subw ord词；基于所述subword词以及所述内核配置项，得到所述依赖关系异构图中的subword词节点与内核配置项节点；基于所述内核配置项对应的所述subword词的出现信息，构建所述subword词节点与内核配置项节点之间的边，并根据所述subword词在对应的内核配置项中的词频 ‑逆文档频率，得到所述边的权重；其中所述词频为所述subword词在对应的名字信息中出现的次数，所述逆文档频率为所述subw ord词的内核配置项数量的对数比例的倒数；基于subword词袋中的词共现信息，构建subword词节点之间的边，并利用逐点互信息计算两个subw ord词节点之间的权重。 7.如权利要求1所述的方法，其特征在于，所述融合所述特征向量hname,i、特征向量 hpath,i、特征向量hdependence,i以及特征向量hhelp,i，并对融合结果分类，得到所述内核配置项的分类结果，包括：将特征向量h* ,i输入多层感知机，得到最优分向量h ′* ,i；其中*∈{name,path,权　利　要　求　书 2/3 页 3 CN 115422361 A 3

专利 一种自动化内核配置项分类方法及装置

专利一种自动化内核配置项分类方法及装置