论文部分内容阅读
生物信息学是借助计算机这一分析工具对包括生物序列在内的生物信息进行储存、检索和分析的科学,是当今核心研究领域之一。生物信息学的研究内容具体体现在通过对核酸和蛋白质序列的分析,揭示生物序列中表达的结构、功能等方面的生物信息。 序列比对是生物信息学中非常重要的分析工具,它在分析蛋白质功能和预测蛋白质结构方面起着基础性作用。序列比对可以分为双序列比对和多序列比对。双序列比对用来分析两条序列之间的相似性,是序列比对的基础。但是对一组生物序列进行同源性分析或者判断未知序列是否属于某个基因家族,就需要用到多序列比对。多序列比对算法的目的是通过对多条序列进行比对来反映序列生物属性的关系。ClustalW是被广泛应用的渐进式多序列比对方。该方法基于反映序列相似性的指导树,逐渐加入新的序列,提高了多序列比对的精度。但是该方法通过序列两两比对的方式产生距离矩阵,计算过程复杂,效率仍然不高,难以应对生物序列规模不断增大的趋势。 针对ClustalW两两比对计算复杂,比对效率低的不足,本文提出了基于Lempel-Ziv序列向量表示的渐进式多序列比对方法LemK_MSA。该方法根据Lempel-Ziv压缩算法,通过10种复制方式将每条序列转换为一个对应的10维向量,从而将多序列比对中复杂的字符串操作转换为简单的向量之间的计算,提高了多序列比对的效率。同时,该方法采取“先分组,后合并”的方式建立指导树,降低了指导树建立过程中距离矩阵的规模,提高了多序列比对方法处理大规模序列的能力。另外,根据序列向量化后,距离矩阵中每个单元的计算不再相互依赖的特点,该方法设计了基于GPU并行计算的距离矩阵计算方式。在生物序列迅速增加的情况下,该方法为准确、快速地分析序列之间的生物特征提供了一种有效工具。