论文部分内容阅读
基因测序已经成为获取基因序列信息的主要手段,是生命科学研究的前沿领域。自高通量技术测序出现以来,在测序通量大幅提升的同时,测序的成本在不断下降,目前为人类个体进行一次测序的花费已经降至不到1万美元。在可以预期的未来,个体测序作为一种医疗手段将会逐渐普及,成为一个新兴的巨大市场。基因数据的爆发式的增长速度已经超过了摩尔定律,对海量数据的计算处理能力成为了制约基因测序应用推广的瓶颈。 以哈希索引为核心的短序列比对算法具有规整的数据结构和良好的可扩展性,是基因测序应用的基础算法。本文选择该算法的高效计算作为研究内容,通过对算法的分析、设计定制计算部件和访存部件,提升了应用程序中热点部分的计算性能。 本文系统地研究了基于并行计算和随机访存的两种可重构计算部件,包括计算流水线并行化、计算模块和访存模块分离、访存延迟容忍等关键技术,在两种平台上进行了工程实现,通过与通用多核处理器的比较,验证了本文所提出的方法具有明显的性能优势和良好的可扩展性。 本文的创新性主要研究成果如下: 1.详细分析了基因深度测序的序列比对算法中的数据分布、计算行为和访存行为等特征,并以此为基础对算法进行了优化。 2.针对并行计算部分设计了一种基于FPGA的硬件加速系统,在数据通路的设计上具有一定创新性。 3.针对随机访存优化问题提出了一种多访存通道的结构,支持高并发的随机访存,同时利用可重构计算部件实现具有较高并行度的处理单元,使得算法的整体性能得以提升,与8路8核Xeon服务器相比,具有2.3倍的平均性能提升。