论文部分内容阅读
随着生物分子序列数据的快速增长及人类基因组计划的实施,生物信息学逐渐发展起来。在生物信息学中,序列比对问题是生物信息学中最基本的也是最重要的问题之一,通过序列比对可以对序列进行分析,从而预测生物序列的结构和功能。由于序列比对问题可以看成是一个组合优化问题,而遗传算法是一种求解大规模问题的全局性优化算法,因此可以用来解决序列比对问题。本文在基于遗传算法解决双序列比对和多序列比对的问题上进行了研究。对序列比对问题研究之后提出了一种改进的遗传算法来解决序列比对问题。针对遗传算法在解决序列比对问题时容易出现的陷入局部最优、不稳定性等问题,本文进行了三个方面的改进:第一,在遗传算子方面使用了智能遗传算子和普通遗传算子相结合的方法,智能遗传算子的设计是为了能使算法迅速收敛到最优解的区域,并能收敛到最优解,而普通遗传算子的作用是为了能够产生新的基因,从而保持种群的多样性;第二,引入了对种群多样性进行评估的性能指标,即利用方差对种群的多样性进行评估,从而根据种群的多样性选择不同的智能变异率和普通变异率,这样就能够时刻保证种群的多样性,从而避免算法陷入局部最优;第三,停止准则引入了进化周期的概念,通过对当前周期内的最优解与上一周期的最优解之差和阈值的比较来确定周期数是否要加一,当进化周期数达到指定值时输出最优结果,这样做避免了种群过早的陷入局部最优及改善了算法的稳定性。通过上面三种策略的加入,使得改进后的遗传算法在解决序列比对问题上得到了很好的效果。为了验证此方法的有效性,通过实验将这种改进的遗传算法分别应用在双序列比对和多序列比对上,并将得到的结果在字符的匹配列数和适应度值上与经典算法T-COFFEE进行比较,从实验结果和实验分析中可以看出此方法的有效性。