论文部分内容阅读
宏基因组学直接从环境样品中获取全部微生物的DNA,无需经历人工纯培养阶段,在微生物的研究中发挥了不可替代的作用,给微生物领域的研究带来了新的发现。由于直接从环境样本中获得全部微生物的DNA,所有微生物的DNA序列信息是混在一起的,因此宏基因组学的任务之一便是在生物意义上确定DNA序列的类别。随着下一代测序技术的快速发展,宏基因组数据量越来越大,宏基因组分类也越来越困难。宏基因组分类直接影响着宏基因学后续的研究,因而如何高效地从这些数据中对DNA序列进行分类,已经成为了宏基因组学相关研究中的关键问题。宏基因组分类(又称宏基因组装仓)可以分为有监督的和无监督的两大类,本文针对宏基因组分类研究的主要工作如下:(1)针对有监督的宏基因组分类问题,本文提出了一种基于集成SVM与BLAST的有监督宏基因组分类方法--EnSVMB来更准确地完成宏基因分类。EnSVMB首先利用不同的k-mer训练多个线性SVM分类器并对它们进行集成,然后根据集成分类的结果将宏基因组序列分为可信任的集合和不可信任的集合。实验结果显示,可信任的集合中的序列由于获得了较多一致的分类结果,因而分类准确率要远高于不可信任集合的序列。其中可信任数据集中的accuracy,sensitivity与specicificity分别超过了95%、90%和97%,但是在不可信任数据集中分别低于88%、60%和75%。为了进一步提升不可信任集合上序列的分类结果,EnSVMB使用序列比对工具BLAST来对它们进行深入的比对分析。实验结果显示,EnSVMB不但能够准确地将序列分为可信任数据集和不可信任数据集,同时利用这种分而治之的思想,在与其他对比方法的比较中,EnSVMB保证分类速度的同时,也获得了最高的accuracy,sensitivity以及true positives。(2)针对无监督的宏基因组分类(又称宏基因组聚类)问题,本文提出了一种基于集成k-means与图分割的宏基因组分类方法--BMC3C,并探索引入了一种全新的特征--密码子使用模式。BMC3C首先自动地探索聚类个数,并利用不同的初始化信息重复地执行多次k-means对序列进行多次聚类。然后根据这些聚类结果构建一个权重图,其中每一个节点代表一个序列,而节点之间的权重代表聚类结果中两个序列之间的关联性。如果两条序列频繁地被聚类到一个类簇中,那么它们之间的权重就大,反之则小。最后,BMC3C利用图分割的方法将权重图分割为多个子图,每一个子图代表一个类。在模拟数据集以及真实数据集上的实验结果显示,BMC3C的实验效果显著好于其他对比算法。BMC3C是第一次将密码子使用模式与集成聚类引入无监督宏基因组分类,实验验证了集成算法在BMC3C中的有效性,同时实验还探究并且验证了新引入的密码子特征在宏基因组分类中的有效性。