论文部分内容阅读
下一代测序(NGS)技术因其较高的测序速度和较低的测序成本,已经逐渐替代传统测序技术,成为生物信息学领域对基因序列进行测序的首选方法。但下一代测序技术经常会出现短序列结果,以及测序结果准确率不够高等问题。因此,下一代测序更依赖于通过各种纠错工具来进行序列纠错,以提高测序结果的正确率。近年来,随着计算机技术的不断发展,利用计算机上的纠错软件对测序结果进行纠错,已经成为生物研究领域的一种趋势与常态。在所有的下一代测序平台中,Illumina测序平台因其相对其它测序平台,拥有较低的测序成本,以及较好的测序质量,目前已经成为领域内最受欢迎的测序平台。但Illumina平台由于测序技术限制的原因,随着测序长度的增长,其测序的精度会逐渐降低。这也使得测序结果经常会产生短读段,难以保证测序结果的准确度。因此,本论文根据以上研究背景和研究现状,决定基于Illumina测序平台,研究出一种基于互信息以及期望最大化的下一代测序纠错算法,用以提高该平台测序结果的质量。本论文介绍了下一代测序技术和基因纠错方法的相关背景和研究现状,以及本论文所需的相关技术和算法,提出了一种基于互信息以及期望最大化的下一代测序纠错算法,对下一代测序的测序结果进行纠错。同时,利用下一代测序技术对基因组进行测序,测序完成后将会获得一系列的k-mer序列。k-mer序列在基因纠错的过程中具有举足轻重的作用,许多纠错算法都需要使用这些序列来进行纠错过程。而测序结果产生的k-mer序列数量十分庞大,如果不将这些k-mer序列进行正确地保存,将会影响后续纠错过程的速度和精度。针对这一情况,本文提出利用Bloom Flter数据结构对k-mer序列集合进行存储,以降低集合的存取时间及占用空间。我们将使用本文提出的算法和其它常用的基因纠错算法进行对比实验。实验结果表明,本文提出的算法相比于其它常用方法,在纠错正确率方面有较大程度的提高。同时,使用BloomFilter数据结构对k-mer序列集合进行存储,有效地降低了基因纠错的时间复杂度和空间复杂度。