iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211088612.1 (22)申请日 2022.09.07 (65)同一申请的已公布的文献号 申请公布号 CN 115186769 A (43)申请公布日 2022.10.14 (73)专利权人 山东未来网络 研究院 (紫金山实 验室工业互联网创新应用基地) 地址 250000 山东省济南市 市中区绿地 新 都会广场商业 一区2号楼5 01-518室 (72)发明人 涂燕晖 陈虎 程海博 陈一昕  (74)专利代理 机构 济南泉城专利商标事务所 37218 专利代理师 李桂存 (51)Int.Cl. G06K 9/62(2022.01)G06F 17/16(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/12(2006.01) G06N 20/00(2019.01) G16B 20/50(2019.01) G16B 40/00(2019.01) (56)对比文件 US 10354747 B1,2019.07.16 CN 114254767 A,202 2.03.29 CN 113962278 A,202 2.01.21 CN 113282747 A,2021.08.20 CN 113838532 A,2021.12.24 CN 113517021 A,2021.10.19 审查员 刘媛 (54)发明名称 一种基于NLP的突变 基因分类方法 (57)摘要 本发明提供了一种基于NLP的突变基因分类 方法, 属于自然语言处理技术领域。 包括以下步 骤: 对文本 特征进行挖掘, 将原始 基因文本、 突变 基因文本以及文献文本组合 成输入样本, 提取文 本的数值特征, 并对每个样本赋予分类标签; 将 样本的特征输入数据矩阵通过PCA降维和白化, 并分为测试集和训练集; 搭建DWNN模型, 确定机 器学习模型的拓扑结构; 确定机器学习模型的超 参数; 得到最终的机器学习模型; 将测试集输入 机器学习模型, 得到最终的分类结果。 本发明提 高了突变基因分类的效率和精度, 降低了分类成 本。 权利要求书3页 说明书8页 附图6页 CN 115186769 B 2022.11.25 CN 115186769 B 1.一种基于N LP的突变 基因分类方法, 其特 征在于, 包括以下步骤: 步骤1: 对文本特征进行挖掘, 将原始基因文本、 突变基因文本以及文献文本组合成输 入样本, 提取文本的数值特征, 并对每个样本赋予分类标签, 所述提取文本数值特征具体步 骤如下: 步骤1‑1: 将所有样本获取的原始基因文本、 突变基因文本和文献文本各自组合成原始 基因数据集、 突变基因数据集和文 献数据集, 分别采用单词提取接口, 提取所有满足正则匹 配规则[a ‑zA‑Z0‑9]的词并对其去重, 再通过n ltk模块剔除无意 义词; 步骤1‑2: 将处理后的原始基因数据 集按照ASCII码正序排列组成列表长度为L1的列表 T1, 逐个筛查列表T1 中对应位置单词在原始基因数据集中出现的次数并记录, 形成列表V1, V1长度与T1相同, V1的第i个元素值代表T1的第i个元素单词在原始基因数据集中出现的次 数, 遍历所有样本的原 始基因, 构成大小为 NxL1的原 始基因数值 提取矩阵; 将处理后的突变基因数据集按照ASCII码正序排列组成列表长度为L2的列表T2, 逐个 筛查列表T2 中对应位置单词在突变基因数据集中出现 的次数并记录, 形成列表V2, V2长度 与T2相同, V2的第i个元素值代表T2的第i个元素单词在突变基因数据集中出现 的次数, 遍 历所有样本, 构成大小为 NxL2的突变 基因数值 提取矩阵; 将处理后的文献数据集按照ASCII码正序排列组成列表长度为L3的列表T3, 逐个筛查 列表T3中对应位置单词在 文献数据集中出现的次数并记录, 形成列表V3, V3长度与T3相同, V3的第i个元素值代表T3的第i个元素单词在文献数据集中出现 的次数, 遍历所有样本, 构 成大小为 NxL3的文献 数值提取矩阵; 步骤1‑3: 将原始基因数值提取矩阵、 突变基因数值提取矩阵和文献数值提取矩阵按照 列方向拼接, 形成样本的特 征输入数据矩阵 , M=L1+L2+L3; 步骤2: 将样本的特征输入数据矩阵通过PCA降维和白化, 并分为测试集和训练集; 具体 步骤如下: 步骤2‑1: 将特征输入数据 的每列特征减去该列的均值得到矩阵B, 矩阵B的协方 差矩阵为C, 其中 表示矩阵B的每列数据; 表示 与 的协方差, 将C作为实对称矩阵, 进行相似 对角化, 即 权 利 要 求 书 1/3 页 2 CN 115186769 B 2其中 为矩阵C的特征值, 且满足 , U 为特征值对应的特 征向量集合经正交及单位 化的标准单位 正交矩阵, UT是U的转置; 若C不 满秩 , 则将正交 矩阵 U 右拼 接 M ‑Ra n k (C) 个单 位正交向 量 , 并 使 ; 步骤2‑2: 控制降维度后的信息量, 具体公式如下: 式中: p表示 容许通过信息百分比, k≤ M; 步骤2‑3: 从左往右取正交矩阵U的前k列, 得到降维后的正交矩阵 , 则降维后的特征 数据集为: 借助PCA白化思想, 经白化后得到: 其中 ; 步骤3: 搭建DWNN模型, 所述DWNN模型依次由6个模块序贯组成, 第1个模块由Input层、 Flatten层、 BatchNormalization层组成; 第2模块由神经元个数为500的全连接层Dense_ 500、 BatchNormalization层组成; 第 3个模块由Dense_300和BatchNormalization层组成; 第4个模块由Dense_200和BatchNormalization层组成; 第5个模块由Dense_100和 BatchNormalization层; 第6个模块由Input层的输入以及Dense_500、 Dense_300、 Dense_ 200、 Dense_100的输出经纵向拼接组成; 模块1~6的激活函数均使用relu函数, 最后使用全 连接层和soft_max函数计算多分类概 率; 将远离 输入层的结果 直接短接 至输出的前一层; 步骤4: 确定机器学习模型的拓扑结构; 将DWNN模型、 lightgbm、 Decision  Tree、 Naïve  Bayes、 random  forest、 XGBoost、 AdaBoosting、 Logistic  Regression学习算法通过 Stacking集成算法集成机器学习模型的拓扑 结构; 步骤5: 确定机器学习模型的超参数; 将训练集输入Stacking集成后的机器学习模型进 行训练, 通过遗传算法模型计算超参数, 得到最终的机器学习模型; 所述通过遗传算法模型计算超参数的具体步骤如下: 初始化种群以及子代数目, 子代的数目就是遗传算法确定超参数迭代的次数, 每个子 代的种群个数相同, 同时设定交叉概率、 变异 概率以及 超参数初始 值; 交叉概率为模仿遗传 学的子代继承父母基因的概率, 变异概率为模仿子代本身受环境影响发生基因变异的概权 利 要 求 书 2/3 页 3 CN 115186769 B 3

.PDF文档 专利 一种基于NLP的突变基因分类方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NLP的突变基因分类方法 第 1 页 专利 一种基于NLP的突变基因分类方法 第 2 页 专利 一种基于NLP的突变基因分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:00:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。