论文部分内容阅读
通过序列比对算法来挖掘出不同序列之间的关系是生物信息学所研究重要内容之一。在众多的序列比对算法中,基于动态规划的序列比对算法Needleman-Wunsch算法具有最优比对结果的特点,但却有着较高的时问及空间复杂度,加上随着测序技术的快速发展,基因序列数据逐年以指数增长趋势快速递增。目前大部分研究人员都是通过高性能多核计算方式来解决前面的这些问题。针对高性能计算设备昂贵和资源有限,Needleman-Wunsch算法中比对数据存在依赖性的特点,以及采用普通的并行技术比较困难的问题,论文提出基于MPI编程技术在异构机群上将该算法分布式并行化。分布式并行化中根据可分负载理论任务调度算法将比对得分矩阵进行划分,通过确定最优迭代次数与子节点获得的子序列长度来充分利用各个节点计算资源,使得计算任务连续执行。另外论文还对算法中的填充过程和回溯过程做了改进,回溯中采用LIFO通信策略使整体算法得到优化,有效降低算法整体的时间及空间复杂度。经过仿真实验数据表明,论文所提出的并行算法在运行时间上比单机串行及其他并行算法得到了减少,达到了预期优化效果,同时鉴于本算法的环境具有搭建简单的结构特点,实用性较强。