(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211220583.X
(22)申请日 2022.10.08
(65)同一申请的已公布的文献号
申请公布号 CN 115295074 A
(43)申请公布日 2022.11.04
(73)专利权人 南京世和基因生物技 术股份有限
公司
地址 210032 江苏省南京市高新 开发区华
康路128号
专利权人 南京世和医疗器 械有限公司
(72)发明人 邵阳 吴雪 包华 刘睿 吴舒雨
吴旻 杨珊珊 刘思思 郑丽娟
(74)专利代理 机构 南京新慧恒 诚知识产权代理
有限公司 32424
专利代理师 邓唯(51)Int.Cl.
G16B 20/30(2019.01)
G16B 40/00(2019.01)
G16B 20/10(2019.01)
G06N 20/00(2019.01)
G06K 9/62(2022.01)
(56)对比文件
CN 113362897 A,2021.09.07
审查员 梁清粼
(54)发明名称
基因标志物在 恶性肺结节筛查中的应用、 筛
查模型的构建方法和检测装置
(57)摘要
本发明提供了基因标志物在恶性肺结节筛
查中的应用、 筛查模型的构建方法和检测装置,
通过对高通量测序结果进行影像表现为高风险
的肺结节良恶性差异DNA碎片片段长短比例, 读
段5端断点处序列读段占比和1Mb窗口拷贝数变
化分析,16bp肿瘤新短序列和核小体覆盖模式,
利用自动机器学习构建多特征多算法整合模型,
对在影像学表现为高风险的肺结节的良恶性进
行预测, 实现对恶性肺结节无创精准诊断, 减少
非必要的良性肺结节切除手术。
权利要求书4页 说明书15页 附图3页
CN 115295074 B
2022.12.16
CN 115295074 B
1.基因标志物在制备恶性肺结节筛查试剂中的应用, 其特征在于, 所述的基因标志物
包括:
第一标志物: cfDNA片段比对至参考基因组的不同窗口中的短读段数量占比和长读段
数量占比;
第二标志物: 不同种类的cfDNA片段比对至参考基因组的5 ’端的m个碱基片段在全部碱
基片段中的占比;
第三标志 物: WGS数据中染色体上不同窗口中的拷贝数;
第四标志 物: 肿瘤新短序列占比;
第五标志 物: 核小体覆盖模式;
所述的第四标志 物通过如下步骤获得:
穷举法生成长度为16bp的短序列集合A; 在人类参考基因序列中穷举出所有的长度为
16bp短序列集 合B, 从集 合A中将集 合B数据剔除后, 定义 为无效子;
从癌症数据库中获得不同癌种的样本WGS测序结果, 提取出多次出现的碱基替换突变;
根据碱基替换的位置, 从无效子中找到包 含这些碱基替换的无效子短序列集 合C;
获取东亚人群中频率大于0.01的碱基替换突变; 根据碱基替换的位置, 从无效子中找
到包含这些碱基替换的无效子 短序列集合D; 从集合C中将集合D的无效子序列排除, 定义为
新短序列;
统计出样本中能够读取到任意一个新短序列的样本数量, 再针对每一个新短序列, 搜
索出包含这些新短序列的样本数量, 将 每一个新短序列的样本数量与所有能读取到任意新
短序列的样本总数的比例;
所述的第五标志 物通过如下步骤获得:
从GTRD数据库中获得转录因子, 并从中排除掉不在CIS ‑BP数据库中有已知转录位点的
转录因子;
将获得的转录因子的转录位点附近 ‑5kb到+5kb范围作 为窗口, 获得可以比对至这些窗
口中的长度为100 ‑220bp的片段, 对 窗口中的读段数据依次进行GC校正和测序深度平滑处
理, 得到每 个转录因子的覆盖模式曲线;
对于每个转录因子, 获得如下三个特 征, 共同作为核 小体覆盖模式:
1) 对于转录因子的全部转录位 点, 求出转录位 点的上端1kb到下端1kb的平均深度;
2) 对于获得的覆盖模式曲线, 获得曲线 波谷的幅度值, 作为 转录因子的中心深度;
3) 对于获得的覆盖模式曲线进行快速傅里叶变换, 获得核小体振幅信号的最高点的振
幅数值。
2.根据权利要求1所述的应用, 其特征在于, 所述的第一标志物通过如下步骤获得: 将
读段数据结果比对至参考基因组, 将参考基因组划分为多个窗口, 并分别获得在每个窗口
范围内的短读段 数量和超长读段 数量占比;
所述的第二标志物通过如下步骤获得: 将读段数据中的5 ’端的m个碱基数据作为碱基
片段集合, 并得到各种碱基片段在全部片段中所占比例;
所述的第三标志物通过如下步骤获得: 将参考基因组划分为多个窗口, 并分别获得WGS
数据中1‑22号染色体上不同窗口中的拷贝数 数据。
3.恶性肺结节筛查模型的构建方法, 其特 征在于, 包括如下步骤:权 利 要 求 书 1/4 页
2
CN 115295074 B
2步骤1, 对阳性组和对照组的样本进行cfDNA的提取并测序, 获得读段 数据;
步骤2, 将读段数据结果比对至参考基因组, 将参考基因组划分为多个窗口, 并分别获
得在每个窗口范围内的短读段 数量和超长读段 数量占比, 作为第一特 征集合;
步骤3, 将读段数据中的5 ’端的m个碱基数据作为碱基片段集合, 并得到各种碱基片段
在全部片段中所占比例作为第二特 征集合;
步骤4, 将参考基因组划分为多个窗口, 并分别获得WGS数据在染色体上不同窗口中的
拷贝数数据, 作为第三特 征集合;
步骤5, 将读取到16bp新短序列的样本数与所有能读取到任意新短序列的样本总数的
比例, 作为第四特 征集合;
步骤6, 分析 所选取的转录因子的核 小体覆盖模式特 征, 作为第五特 征集合;
步骤7, 以第一、 第二、 第三、 第四和第五特征集合共同作为初始特征值, 作为模型特征
向量输入至分类模型中, 并以肺结节良恶性作为输出值, 对 模型进行训练, 获得早筛模型;
第四特征集合的获取步骤如下:
步骤5‑1, 穷举法生成长度为16bp的短序列集合A; 在人类参考基因序列中穷举出所有
的长度为16bp短序列集 合B, 从集 合A中将集 合B数据剔除后, 定义 为无效子;
步骤5‑2, 从癌症数据库中获得不同癌种的样本WGS测序结果, 提取出多次出现的碱基
替换突变; 根据碱基替换的位置, 从无效子中找到包含这些碱基替换的无效子 短序列集合
C;
步骤5‑3, 获取东亚人群中频率大于0.01的碱基替换突变; 根据碱基替换的位置, 从无
效子中找到包含这些碱基替换 的无效子短序列集合D; 从集合C中将集合D的无效子序列排
除, 定义为新短序列;
步骤5‑4, 统计出样本 中能够读取到任意一个新短序列的样本数量, 再针对每一个新短
序列, 搜索出包含这些新短序列的样本数量, 将每一个新短序列的样本数量与所有能读取
到任意新短序列的样本总数的比例, 作为模型的第四特 征集合;
所述的癌症数据库是PCAWG数据库;
不同癌种是指肠癌、 肺癌、 乳腺癌、 胃癌、 前列腺癌和肝癌;
东亚人群中的碱基替换突变是通过gn omAD数据库获得;
所述的步骤6包括:
步骤6‑1, 从GTRD数据库中获得转录因子, 并从中排除掉不在CIS ‑BP数据库中有已知转
录位点的转录因子;
步骤6‑2, 将步骤6 ‑1中获得的转录因子的转录位点附近 ‑5kb到+5kb范围作为窗口, 获
得可以比对至这些窗口中的长度为100 ‑220bp的片段, 对窗口中的读段数据依次进行GC校
正和测序深度平 滑处理, 得到每 个转录因子的覆盖模式曲线;
步骤6‑3, 对于每 个转录因子, 获得如下三个特 征, 共同作为核 小体覆盖模式特 征:
1) 对于转录因子的全部转录位 点, 求出转录位 点的上端1kb到下端1kb的平均深度;
2) 对于获得的覆盖模式曲线, 获得曲线 波谷的幅度值, 作为 转录因子的中心深度;
3) 对于获得的覆盖模式曲线进行快速傅里叶变换, 获得核小体振幅信号的最高点的振
幅数值。
4.根据权利要求3所述的恶性肺结节筛查模型的构建方法, 其特征在于, 所述的步骤3权 利 要 求 书 2/4 页
3
CN 115295074 B
3
专利 基因标志物在恶性肺结节筛查中的应用、筛查模型的构建方法和检测装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:13:20上传分享