论文部分内容阅读
微生物群体中包含着大量诠释人类健康、自然进化和生态构成等问题的重要信息,高通量测序技术使获取这些信息成为可能。通过对微生物群落的样本数据进行测序,产生了大量的宏基因组测序片段数据,准确地分类拼接测序片段对获取微生物群体的真实信息提供了重要前提条件,从而保证了宏基因组学研究的精度和效率。近年来,利用DNA测序片段数据组装宏基因组序列的计算问题深受关注,本文针对该问题进行研究。由于大部分微生物的基因数据均是未知的,针对这个数据特点,本文基于De Bruijn图提出从头拼接宏基因组序列的方法CLUSTERH。首先,CLUSTERH方法将测序片段分解为K-mers以构建De Bruijn图,并通过调节K值来去除测序错误;其次,由于不同物种间的基因相似区域较相同物种亚种之间的基因相似区域要少,基于这个思想,CLUSTERH通过试图去除De Bruijn图中的cr分支,将De Bruijn图划分成一组孤立的子图,其中每个子图代表一个物种或者一个物种的多个亚种;最后,CLUSTERH通过多序列比对的方法来获得物种的基因序列。利用美国国立生物技术信息中心NCBI网站发布的生物数据进行实验测试与分析。结果表明,CLUSTERH算法对于携带和不带mate-pair片段的测序数据,均能获得较高精度的宏基因组组装序列,有效地放松了对测序数据的mate-pair片段要求,从而可以进一步降低测序成本,且算法的实用性更强。基于CLUSTERH方法,设计并实现了宏基因组序列组装测试软件包。该软件包使用C++语言进行开发,在Linux 64-bit操作系统下运行。主要包括参数设置、读入生物数据、宏基因组组装、查看结果以及分析结果五大模块。参数设置模块可以根据具体情况,设置生物数据格式,选择片段数据是否带mate-pair信息、生成文件路径等。读入生物数据是指从文本文件中读入测序片段数据,数据文件为fasta格式。宏基因组组装过程当中,可动态显示划分图过程中的去边过程,最终结果保存在外部文件中,并提供对结果的有效性分析。综上所述,本文对宏基因组序列组装问题的求解算法进行研究,提出了有效的算法并取得了较好的组装效果,为解决宏基因组数据组装问题提供了一种较好思路和方法。