论文部分内容阅读
元基因组的序列分类是元基因组学分析中一个很重要的环节。目前,基于同源比对的元基因组序列分类方法大都采用Blast、Blastx等速度缓慢的序列比对软件,已经很难适应元基因组数据量的增长;同时,这些软件在处理共有序列、未知序列时,还有很大缺陷。新开发的基于比元基因组学通过研究从环境样品中直接提取的全部微生物的DNA,极大促进了对海洋、土壤、人体等各种环境的微生物学研究。同时新一代测序技术的迅速发展,为元基因组学的发展提供了条件。然而,迅速增加的数据量对元基因组数据的分析提出了挑战。因此,开发新一代的元基因组高速分析系统十分重要。该高速分析系统目前包括两大部分:元基因组的模拟系统(NeSSM)和元基因组的序列分类系统(MetaAll)。 元基因组的模拟系统可以用于评估实验的参数与方案,选择合适的分析软件。现有的元基因组模拟软件模拟时所用的错误模型较简单,模拟速度缓慢,无法准确模拟大数据量下的元基因组。新开发的元基因模拟软件——NeSSM,引入了更加复杂的错误模型,使元基因组的模拟更为真实,同时还使用了GPU来加速模拟速度。 元基因组的序列分类是元基因组学分析中一个很重要的环节。目前,基于同源比对的元基因组序列分类方法大都采用Blast、Blastx等速度缓慢的序列比对软件,已经很难适应元基因组数据量的增长;同时,这些软件在处理共有序列、未知序列时,还有很大缺陷。新开发的基于比对的元基因组序列分类软件——MetaAll,采用了更加合理的概率、先验等模型,使得元基因组的序列分类更准确;同时MetaAll不仅支持Blast、Blat等传统序列比对,还支持BWA、Bowtie等针对高通量测序所设计的快速比对软件,极大的加快了元基因组分析速度。