iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210999858.8 (22)申请日 2022.08.19 (71)申请人 华中科技大 学同济医学院附属同济 医院 地址 430030 湖北省武汉市解 放大道1095 号 申请人 武汉生物样本库有限公司 (72)发明人 汪道文 刘浩 余思克  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 徐瑛 (51)Int.Cl. G16B 20/50(2019.01) G16B 40/20(2019.01) G16B 50/30(2019.01)G06N 20/00(2019.01) (54)发明名称 一种可变剪接扰乱 突变位点的预测方法、 装 置、 设备及 介质 (57)摘要 本发明公开了一种可变剪接扰乱突变位点 的预测方法、 装置、 设备及介质。 所述预测系统包 含训练好的混合模型MLCsplice, 所述混合模型 MLCsplic e用于: 根据输入的突变位点信息, 采用 预设的机器学习算法计算所输入突变位点在基 因组中作为可变剪接扰乱突变位点的可能性得 分, 根据可能性得分预测可变剪接扰乱突变位点 致病性; 将所述基因组划分为五个不同区域, 包 括外显子区、 核心供体区、 延伸供体区、 核心受体 区和延伸受体区。 本发明通过四个独立测试集和 三个应用集系统地比较了MLCsplic e与现有方法 的预测效能, 发现本发明MLCsplice的预测效能 突出且稳定, 有利于临床上来预测突变位点对基 因可变剪接的影响。 权利要求书2页 说明书14页 附图6页 CN 115458053 A 2022.12.09 CN 115458053 A 1.一种可变剪接扰乱突变位点的预测方法, 其特征在于, 包含训练好的混合模型 MLCsplice, 所述混合模型MLCsplice用于: 根据输入的突变位点信息, 采用预设的机器学习 算法计算所输入突变位点在基因组中作为可变剪接扰乱 突变位点的可能性得分, 根据可能 性得分预测可变剪 接扰乱突变位 点致病性; 将所述基因组划分为五个不同区域, 包括外显子区、 核心供体区、 延伸供体区、 核心受 体区和延伸受体区。 2.根据权利要求1所述的一种可变剪接扰乱突变位点的预测方法, 其特征在于, 所述预 设的机器学习算法包括XGBo ost、 CGBo ost、 LightGBM。 3.根据权利要求1所述的一种可变剪接扰乱突变位点的预测方法, 其特征在于, 所述外 显子区指 外显子首尾端的各三个核苷酸碱基, 所述核心供体区指内含子经典剪接供体位点 下游的第1个核苷 酸碱基到第4个核苷酸碱基, 所述延伸供体区指内含子经典剪接供体位点 下游的第5个核苷酸碱基到第11个核苷酸碱基, 所述核心受体区指内含子经典剪接受体位 点上游的第1个核苷酸碱基到第10个核苷酸碱基, 所述延伸受体区指内含子经典剪接受体 位点上游的第1 1个核苷酸碱基到第48个核苷酸碱基。 4.根据权利要求1所述的一种可变剪接扰乱突变位点的预测方法, 其特征在于, 所述突 变位点信息包括染色体号、 位 点、 碱基突变 类型。 5.根据权利要求1所述的一种可变剪接扰乱突变位点的预测系统, 其特征在于, 所述混 合模型MLCspl ice的训练方法包括: S1、 预测分数集的获取: 将包含有可变剪接扰乱突变位点和非可变剪接扰乱突变位点 的原始训练集按照所述不同区域进行划分, 然后分别用现有 预测方法对上述不同区域的突 变位点的剪接效应进行预测, 获得所述不同区域预测分数 的二维矩阵数据, 每一行是一个 突变位点, 每一列是一种预测方法的预测分数; S2、 对获得的预测 分数进行预处理: 如果突变位点存在预测 分数的缺失, 采用Scikit ‑ learn中的KNN算法对其进行填补; 并使用Phred ‑scaled分数对所有预测分数进行归一化处 理; S3、 将S2处理后的预测分数按3:1的位点比例划分为 内部训练集和内部验证集, 采用现 有的机器学习算法对不同区域进行模型的构建; S4、 针对S3构建的模型, 采用内部训练集十折交叉验证的AUROC值、 内部验证集AUROC 值、 内部训练集和内部验证集的MCC值、 独立测试集的MCC值作为评估指标, 筛选出所述不同 区域对应的机器学习算法模型。 6.根据权利要求5所述的一种可变剪接扰乱突变位点的预测方法, 其特征在于, 所述步 骤S1中的原始训练集中: 可变剪接扰乱突变位点来自于DBASS、 HGMD, 非可变剪接扰乱突变 位点来自于gn omAD、 ExAC、 dbSNP; 所述步骤S4采用的独立测试集包含: MFASS、 Vex ‑seq、 2019 ‑2021年文献数据库包含的 突变位点和ClinVar数据库。 7.根据权利要求1所述的一种可变剪接扰乱突变位点的预测方法, 其特征在于, 所述可 能性得分为0~1之间的分数; 预测所述外显子、 核心供体区、 延伸供体区、 核心受体区和延伸受体区的可变剪接扰乱 突变位点致病性的阈值分别为0.43、 0.48、 0.19、 0.51和0.47。权 利 要 求 书 1/2 页 2 CN 115458053 A 28.一种可变剪 接扰乱突变位 点的预测装置, 其特 征在于, 包括: 模型训练模块, 用于根据划分好的基因组不同区域, 进行模型训练, 得到训练好的混合 模型MLCspl ice; 预测模块, 用于将需要预测的突变位点信息输入训练好的混合模型MLCsplice, 输出预 测结果, 进一步包括: 采用预设的机器学习算法计算所输入突变位点作为可变剪接扰乱突 变位点的可能性得分, 根据可能性得分预测可变剪 接扰乱突变位 点致病性。 9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器、 存储器, 以及存储在所 述存储器上并可被所述处理器执行的计算机程序, 其中所述计算机程序被所述处理器执行 时, 实现如权利要求1~7任一项所述的可变剪 接扰乱突变位 点的预测方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 其中所述计算机程序被处理器执行时, 实现如权利要求1~7任一项所述的可变剪接 扰乱突变位 点的预测方法。权 利 要 求 书 2/2 页 3 CN 115458053 A 3

.PDF文档 专利 一种可变剪接扰乱突变位点的预测方法、装置、设备及介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种可变剪接扰乱突变位点的预测方法、装置、设备及介质 第 1 页 专利 一种可变剪接扰乱突变位点的预测方法、装置、设备及介质 第 2 页 专利 一种可变剪接扰乱突变位点的预测方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:59:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。