论文部分内容阅读
生物信息学是一门新兴交叉学科,研究内容涉及到生物学、数学和计算机等相关学科的知识。系统发生分析是生物信息学的重要研究内容之一,主要是利用概率统计方法和生物分子数据,对生物进化关系进行推断和评估。基于系统发生学的计算分子进化在进化遗传学、生态学、基因组学、病毒学和发育生物学等实验生物学领域都有很广泛地的应用,而以核苷酸、氨基酸或密码子为数据分类单元的概率置换模型的建立是计算分子进化的重要研究内容,因此,对概率置换模型的研究具有重要的意义。 本文主要对基于密码子偏性和分枝聚类的密码子置换模型的参数进行统计推断。本文第二章基于密码子偏性与氨基酸生化距离建立新的密码子置换模型,将新模型应用到两个真实的数据集,并与原模型进行比较来分析新模型对数据的适应性。分析结果表明新模型比未考虑密码子偏性和氨基酸生化距离的模型能更好地拟合数据,对参数的估计更加合理。第三章我们针对进化位点的差异性,首先利用聚类分析法判断物种间的相似度。在此基础上,然后根据相似度对物种进行分支分类,对不同的分支类别设置不同选择压力系数,并利用最大似然法对模型的参数进行了估计,通过具体数据集计算出物种各分枝的不同选择压力系数,最后将新模型与原模型进行了比较。第四章主要讨论了EM算法对存在插入、缺损的观测序列构建系统发生树的参数估计问题,重点在于应用EM算法在简单密码子置换模型JC69和K80下,对含不完整数据的序列伽马距离进行参数估计,并介绍了检验系统发生树可靠性的方法。