DNA数据压缩方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:west_fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着DNA测序技术的发展,生物医学研究面临着如何存储和传输DNA数据的问题。DNA数据压缩技术成为其中解决问题的重要方法之一,即以高效的压缩编码方法,将DNA数据存储于较小的空间。由于DNA数据的特殊性,使用传统的压缩算法并不是很理想,因此出现了专门针对DNA数据的压缩算法,这类算法主要有两大类,即替代法和统计法。替代法是在原始DNA数据中寻找重复出现频率高的DNA片段,并将这些片段编入字典,用字典索引值替代原始DNA数据中的这些片段;统计法是通过统计归纳出原始DNA数据中每个碱基符号出现的规律,估计出其对应的概率统计模型,然后利用该模型对DNA数据进行熵编码。这两类压缩方法对DNA基准测序序列具有较好的压缩效果,而对高通量DNA数据压缩有限,故出现一系列针对高通量DNA数据的压缩方法。目前,高通量DNA数据的压缩方法主要为重测序的DNA数据压缩方法和从头测序的DNA数据压缩方法。对于重测序的DNA数据压缩方法主要是基于参考基因组压缩,基于参考基因组的DNA数据压缩方法,虽然获得的压缩比很高,但对参考序列依赖性太强,而实际上有些测序序列并不存在现成的参考基因组,同时由于压缩和解压都需要相同的参考基因组,故参考基因组必须事先保存在本地,从而导致算法资源开销较大;对于从头测序的DNA数据压缩方法,不依赖外部的参考基因组,自完备性较好,但在一定程度上仍受限于短读拼接技术。本文针对这些问题,首先在前两章中调研了DNA数据压缩方法的研究现状,并对相关的DNA数据压缩技术及压缩方法所面临的挑战与展望进行了分析与讨论。最后,提出了几种DNA数据压缩方法,并对算法进行了分析。本论文主要有如下几方面的贡献:1.在经典DNA数据压缩算法的基础上,提出一种基于扩展操作的DNA数据压缩算法(DNA sequence compression using extended operations, DNAEC)。该算法将三种标准编辑操作扩展为八种操作,利用LZ算法思想对精确匹配、互补回文、自匹配三种模型进行压缩,而对非重复片段使用基于上下文的二阶二进制算术编码器进行压缩编码。最后通过实验仿真,与典型的DNA压缩算法相比,在DNA基准测序序列上该算法的压缩性能得到了提升,特别是对较长的DNA数据,其压缩效果更为明显。2.在Memetic算法框架下,提出一种基于CPMA (Collaborative particle swarmoptimization-based memetic algorithm)的DNA数据压缩方法。CPMA分别采用综合学习粒子群优化算法和动态调整的混沌搜索算子进行全局搜索和局部搜索,接着寻找全局最优的基于扩展操作的近似重复矢量码书,并用此码书压缩DNA数据。实验结果表明,CPMA比其它优化算法有很大的改善,对文中采用的大部分测试函数,其解都非常接近全局最优点;对于DNA基准测序序列,与经典DNA数据压缩算法相比,基于CPMA的压缩性能得到了显著提升。3.在Memetic算法框架下,提出另外一种混合粒子群优化(Hybrid particle swarmoptimization based memetic algorithm, HPMA)的DNA数据压缩方法。HPMA采用动态综合学习粒子群优化算法作为全局搜索方法,然后分别用两种不同的局部搜索算子,即中心对称变异差分进化算子和自适应混沌搜索算子,接着寻找全局最优的基于扩展操作的近似重复矢量码书,用此码书压缩DNA数据。最后对算法进行实验仿真,在19个高维测试函数上,HPMA能获得比论文提及的优化算法更好的优化性能和伸缩性能;在DNA基准测序序列上,与经典DNA数据压缩算法相比其压缩率得到明显的提高。4.考虑到基于参考基因组的DNA数据压缩算法对参考序列依赖性太强的特点,提出一种高通量DNA数据的压缩算法(Codebook index transformation for high-throughputDNA data, CITD),该算法先采用码书索引变换模型,将传统码书索引值的表示方法变换成由四个标准碱基字符替代的四进制数值方式,并采用一种界定替换串与非替换串的简明编码方法,接着通过信息熵的大小来决定是否进行BWT (Burrows-Wheelertransformation),最后用MTF (Move to front)变换和Huffman熵编码对高通量DNA数据进行压缩。在多个测序数据集上的实验结果表明,CITD在大多数情况下可以获得比所对比的高通量DNA数据专用压缩方法更优的压缩性能。5.提出另外一种高通量DNA数据压缩算法,即DNAC-K(K-means clustering forhigh-throughput DNA data)。该算法首先利用K-means方法建立DNA数据聚类族,接着在聚类族中对子序列之间进行序列比对,最后用Huffman熵编码对高通量DNA数据进行压缩。实验结果表明,在大多数测序数据集上DNAC-K可以获得比从前的高通量DNA数据专用压缩方法更优的压缩性能。
其他文献
目的探讨两种不同胰岛素强化治疗2型糖尿病的临床效果。方法选取2016年1月~2017年1月本院收治的2型糖尿病患者共80例,随机抽签分为对照组和观察组,各40例。对照组给予诺和灵R
为明确引起宜昌市核桃黑斑病的病原菌,根据柯赫氏法则测定其致病性,通过形态学观察和rDNA-ITS序列分析鉴定病原菌。结果表明,引起宜昌市核桃黑斑病的病原菌为链格孢属链格孢(
文章应用Multisim设计仿真软件,教导高职学生对二极管单向导电特性进行探索,了解二极管的主要参数,掌握二极管的选用,对单相整流滤波电路进行设计与仿真,培养应用能力。
本文分析了铸造水爆清砂废水的水质特点,阐述了水爆废水处理和回用的重要意义。介绍了国内目前的处理工艺流程及混凝剂选择,并提出了存在问题及解决办法。
2007年8月至2008年8月,用"非淹没培养皿法"和"活体观察法"研究了甘肃黄河首曲湿地省级自然保护区的肉鞭虫物种多样性.共鉴定到肉鞭虫74种,其中鞭毛虫51种,肉足虫23种,包括4个未定
通过分析世界钢铁工业格局的演进指出了钢铁工业国际转移路径,阐明了钢铁工业国际转移的特点,进而主要研究了影响钢铁工业国际转移的因素:比较优势是表层动因,技术进步是根本
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为解释国有大企业创新集聚能力与创新集聚绩效的内在关系,研究采用知识集成视角探讨创新集聚能力对创新集聚绩效的作用。基于典型国有大企业创新集聚多案例研究,研究识别出国