专利 一种基于分类算法的DNA数据存储动态压缩方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211029286.7 (22)申请日 2022.08.25 (71)申请人东南大学地址 211189 江苏省南京市江宁区东南大学路2号 (72)发明人赵祥伟　毕昆　赖鑫　陆祖宏　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师冒艳 (51)Int.Cl. G16B 50/50(2019.01) G06F 16/174(2019.01) G06F 16/16(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01)G06F 40/151(2020.01) G06F 11/10(2006.01) (54)发明名称一种基于分类算法的DNA数据存储动态压缩方法 (57)摘要本发明公开了一种基于分类算法的DNA数据存储动态压缩方法，包括： 1)选择需要存储的文件； 2)选择分类器，对选择的文件进行分类处理； 3)按照分类结果对每种文件使用压缩算法； 4)将压缩后的文件数据单独进行碱基转换； 5)把文件的名称和转换后的碱基个数保存成单独的碱基序列，作为文件目录； 6)将文件碱基序列及文件目录信息拼接成长的碱基序列； 7)将拼接后的长碱基序列划分为若干等长序列，添加地址码，纠错码； 8)还原文件时，读取文件目录信息，按需还原，得到输入文件。本方法提高了DNA数据存储中数据压缩率，可以根据文件的性质选择压缩算法，从而达到提高文件数据压缩率的目的。权利要求书2页说明书5页附图2页 CN 115472232 A 2022.12.13 CN 115472232 A 1.一种基于分类算法的DNA数据存储动态压缩方法，其特征在于：包括如下步骤： I.选择需要存储的a个文件，根据需要选择任意类型及大小的文件，数量不限； II.选择机器学习分类器，对选择的文件根据文件类型及大小进行分类处理；其训练流程包括如下步骤： 1)获取训练使用的t个文件数据，包含一种或者多种类型，任意大小的文件； 2)对获取的文件进行压缩处理，使用d种压缩算法对每个文件都进行单独压缩处理； 3)将每个文件用d种压缩算法压缩后的结果进行比较，对于每个文件使用d种压缩算法得到的d个压缩数据D1，…， Dd，选择min{D1，…， Dd}，得到压缩比最高的一种算法； 4)将文件类型，文件大小及所使用压缩比最高的压缩算法保存成向量形式，其中文件类型为字符串形式，文件大小为整数范围0＜size≤∞，压缩算法为字符串形式，作为数据集； 5)利用转换编码将文件类型由字符串转换成数字形式的向量； 6)利用数据标准化方式，将文件大小转换成一定范围0＜size＜j的数据； 7)把数据集按照m： n分成训练集和测试集两部分，其中， 0.5≤m≤1， 0 ≤n≤0.5， m+n＝1， 8)使用机器学习的分类算法对训练集进行训练，利用测试数据对分类器的效果进行验证； 9)保存训练好的模型，其分类流程包括如下步骤： 1)将待分类的文件信息保存成向量形式，文件类型，文件大小，其中文件类型为字符串形式，文件大小为整数范围0＜size≤∞， 2)利用转换编码将文件类型由字符串转换成数字形式的向量； 3)利用数据标准化方式，将文件大小转换成一定范围0＜size＜j的数据； 4)调用训练好的分类器文件； 5)得到文件的分类结果，分类结果共有s种，其中0≤s≤d，其中d为使用的压缩算法种类， III.对分类完的文件，按照分类结果{S1， S2，…， Ss}对每种类别中的文件使用类别对应的压缩算法， Si使用di对应的压缩算法，其中Si至多包含a个文件， IV.将压缩后的每个文件ai数据单独进行碱基序列转换，即把文件的二进制序列转换成碱基序列，得到e 条碱基序列，其中e＝a， V.将a个文件的基本信息及转换后的碱基个数保存成一个单独的碱基序列，碱基个数为ai文件数据转换成的碱基序列ei所包含的碱基个数，形成一个文件信息目录，并在文件目录前后添加一段标志序列， VI.将所有文件碱基序列及文件目录信息拼接成一个长的碱基序列， VII.根据DNA合成长度的要求，将拼接后的长碱基序列划分为L条长度为h序列，在每条序列Li前添加地址码，地址码按照递增顺序排列，其范围为0≤addre ss≤L，在序列Li末尾添加r位纠错码； VIII.数据还原时，根据碱基测序的结果，按照每条碱基序列的地址码对序列进行排序处理，并根据每条序列中的纠错码对序列的可能出现的错误进行处理；权　利　要　求　书 1/2 页 2 CN 115472232 A 2IX.完成排序后的序列，按照顺序去除地址码和纠错码后，将L条序列按照地址码顺序拼接成长的碱基序列； X.根据设置的标志序列，读取碱基序列的文件目录部分，根据目录中的碱基个数信息按需还原，得到输入文件。 2.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法，其特征在于，所述步骤II、 III、 IV中，构建了对于待存储文件先进行分类再压缩的数据处理流程，文件与文件之间单独压缩后按照DNA存储的碱基转换规则将数据转换成碱基序列。 3.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法，其特征在于，所述步骤II中，所使用的压缩算法包括BZIP2、 DEFLATE、 PPMD，所使用的分类算法可以使用任意的机器学习分类算法，包括监督学习、半监督学习、无监督学习，例如K近邻、决策树、随机森林、梯度提升、自适应增强、朴素贝叶斯、支持向量机。 4.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法，其特征在于，所述步骤V、 VI中，所述碱基序列结构为：文件目录由a个文件的信息构成，按文件读入顺序排列： (文件名1，文件1碱基个数)+(文件名2，文件2碱基个数)+...+(文件名a，文件a碱基个数)，在文件目录后按目录中的文件顺序排列各个文件的碱基序列：文件目录碱基序列+文件1碱基序列+文件2碱基序列+. ..+文件a碱基序列。 5.根据权利要求1所述的基于分类算法的DNA数据存储动态压缩方法，其特征在于，所述步骤VIII中，按需还原的寻址方式为：首先计算所需还原文件前的包含的碱基总数，得到所需还原文件的开始位置位置，结合文件目录中的该文件碱基个数，可得到该文件在长碱基序列中的位置，读取该部分碱基序列即可完成按需还原。权　利　要　求　书 2/2 页 3 CN 115472232 A 3

专利 一种基于分类算法的DNA数据存储动态压缩方法

专利一种基于分类算法的DNA数据存储动态压缩方法