iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211029286.7 (22)申请日 2022.08.25 (71)申请人 东南大学 地址 211189 江苏省南京市江宁区东 南大 学路2号 (72)发明人 赵祥伟 毕昆 赖鑫 陆祖宏  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 冒艳 (51)Int.Cl. G16B 50/50(2019.01) G06F 16/174(2019.01) G06F 16/16(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01)G06F 40/151(2020.01) G06F 11/10(2006.01) (54)发明名称 一种基于分类算法的DNA数据存储动态压缩 方法 (57)摘要 本发明公开了一种基于分类算法的DNA数据 存储动态压缩方法, 包括: 1)选择需要存储的文 件; 2)选择分类器, 对选择的文件进行分类处理; 3)按照分类结果对每种文件使用压缩算法; 4)将 压缩后的文件数据单独进行碱基转换; 5)把文件 的名称和转换后的碱基个数保存成单独的碱基 序列, 作为文件目录; 6)将文件碱基序列及文件 目录信息拼接成长的碱基序列; 7)将拼接后的长 碱基序列划分为若干等长序列, 添加地址码, 纠 错码; 8)还原文件时, 读取文件目录信息, 按需还 原, 得到输入文件。 本方法提高了DNA数据存储中 数据压缩率, 可以根据文件的性质选择压缩算 法, 从而达 到提高文 件数据压缩率的目的。 权利要求书2页 说明书5页 附图2页 CN 115472232 A 2022.12.13 CN 115472232 A 1.一种基于分类算法的DNA数据存 储动态压缩方法, 其特 征在于: 包括如下步骤: I.选择需要存 储的a个文件, 根据需要选择任意类型及大小的文件, 数量 不限; II.选择机器学习分类 器, 对选择的文件根据文件类型及大小 进行分类处 理; 其训练流 程包括如下步骤: 1)获取训练使用的t个文件数据, 包 含一种或者多种类型, 任意大小的文件; 2)对获取的文件进行压缩处 理, 使用d种压缩算法对每 个文件都进行 单独压缩处 理; 3)将每个文件用d种压缩算法压缩后的结果进行比较, 对于每个文件使用d种压缩算法 得到的d个压缩数据D1,…, Dd, 选择min{D1,…, Dd}, 得到压缩比最高的一种算法; 4)将文件类型, 文件大小及所使用压缩比最高的压缩算法保存成向量形式, 其中文件 类型为字符串形式, 文件大小为整数范围0<size≤∞, 压缩算法为字符串形式, 作为数据 集; 5)利用转换编码 将文件类型由字符串转换成数字形式的向量; 6)利用数据标准 化方式, 将文件大小转换成一定范围0<size<j的数据; 7)把数据集按照m: n分成训练集和 测试集两 部分, 其中, 0.5≤m≤1, 0 ≤n≤0.5, m+n=1, 8)使用机器学习的分类算法对训练集进行训练, 利用测试数据对分类器的效果进行验 证; 9)保存训练好的模型, 其分类流 程包括如下步骤: 1)将待分类的文件信息保存成向量形式, 文件类型, 文件大小, 其中文件类型为字符串 形式, 文件大小为整数 范围0<size≤∞, 2)利用转换编码 将文件类型由字符串转换成数字形式的向量; 3)利用数据标准 化方式, 将文件大小转换成一定范围0<size<j的数据; 4)调用训练好的分类 器文件; 5)得到文件 的分类结果, 分类结果共有s种, 其中0≤s≤d, 其中d为使用的压缩算法种 类, III.对分类完的文件, 按照分类结果{S1, S2,…, Ss}对每种类别中的文件使用类别对应 的压缩算法, Si使用di对应的压缩算法, 其中Si至多包含a个文件, IV.将压缩后的每个文件ai数据单独进行碱基序列转换, 即把文件的二进制序列转换成 碱基序列, 得到e 条碱基序列, 其中e=a, V.将a个文件的基本信息及转换后的碱基个数保存成一个单独的碱基序列, 碱基个数 为ai文件数据转 换成的碱基序列ei所包含的碱基个数, 形成一个文件信息目录, 并在文件目 录前后添加一段 标志序列, VI.将所有 文件碱基序列及文件目录信息拼接成一个长的碱基序列, VII.根据DNA合成长度的要求, 将拼接后的长碱基序列划分为L条长度为h序列, 在每条 序列Li前添加地址码, 地址码按照递增顺序排列, 其 范围为0≤addre ss≤L, 在序列Li末尾添 加r位纠错码; VIII.数据还原时, 根据碱基测序的结果, 按照 每条碱基序列的地址码对序列进行排序 处理, 并根据每条序列中的纠错码对序列的可能出现的错 误进行处 理;权 利 要 求 书 1/2 页 2 CN 115472232 A 2IX.完成排序后的序列, 按照顺序去除地址码和纠错码后, 将L条序列按照地址码顺序 拼接成长的碱基序列; X.根据设置的标志序列, 读取碱基序列的文件目录部分, 根据目录中的碱基个数信息 按需还原, 得到 输入文件。 2.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法, 其特征在于, 所 述步骤II、 III、 IV中, 构建了对于待存储文件 先进行分类再压缩的数据处理流程, 文件与文 件之间单独压缩后按照DNA存 储的碱基转换规则将数据转换成碱基序列。 3.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法, 其特征在于, 所 述步骤II中, 所使用的压缩算法包括BZIP2、 DEFLATE、 PPMD, 所使用的分类算法可以使用任 意的机器学习分类算法, 包括监督学习、 半监督学习、 无监督学习, 例如K近邻、 决策树、 随机 森林、 梯度提升、 自适应增强、 朴素贝叶斯、 支持向量机 。 4.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法, 其特征在于, 所 述步骤V、 VI中, 所述碱基序列结构为: 文件目录由a个文件的信息构成, 按 文件读入顺序排列: (文件名1, 文件1碱基个数)+(文件名2, 文件2碱基个数)+...+(文件名a, 文件a碱基个 数), 在文件目录后按目录中的文件顺序排列各个文件的碱基序列: 文件目录 碱基序列+文件1碱基序列+文件2碱基序列+. ..+文件a碱基序列。 5.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法, 其特征在于, 所 述步骤VIII中, 按需还原的寻址方式为: 首先计算所需还原文件前的包含的碱基总数, 得到 所需还原文件的开始位置位置, 结合文件目录中的该文件碱基个数, 可得到该文件在长碱 基序列中的位置, 读取 该部分碱基序列即可完成按需还原。权 利 要 求 书 2/2 页 3 CN 115472232 A 3

.PDF文档 专利 一种基于分类算法的DNA数据存储动态压缩方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分类算法的DNA数据存储动态压缩方法 第 1 页 专利 一种基于分类算法的DNA数据存储动态压缩方法 第 2 页 专利 一种基于分类算法的DNA数据存储动态压缩方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:00:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。