论文部分内容阅读
宏基因组主要研究特定环境中微生物的组成及与环境因素的交互关系,其任务之一是将不同基因按照样本特征进行聚类,进而研究各类之间的相互关系.由于样本量m-般在上千左右,每个样本中包含的基因数量n也在百万左右,且符合数据特性的聚类算法复杂度为O(m2n2),常规实现方式需要耗费大量计算时间.为此,本文选取适用于宏基因组数据的聚类算法,使用一千个样本和五千个基因进行测试,原串行程序需要运行十几个小时,而基于GPU的实现将计算时间减少到半分钟,达到了2000倍的加速比,极大提升了计算效率.