论文部分内容阅读
基因组重建是生物信息学的重要研究领域,可促进基因组比较和分析的发展。祖先基因组的重建过程是对一组物种的系统发育研究,可获得关于祖先物种的信息,如基因含量,和这些基因在基因组中的顺序和方向,核苷酸序列等等。这些信息可以帮助研究人员了解物种的形成和进化的历史,以及物种之间的进化关系。因此,研究重建祖先基因组的方法具有重要意义。本文提出了基于最大似然法的祖先基因组重建算法和获取备选祖先基因组算法。主要研究内容:
(1)提出了获取备选祖先基因组算法。该算法将系统发育树和已知物种的基因组作为输入数据,基于最大简约法原则通过权值计算获取备选祖先基因组。获取备选祖先基因组算法可以处理大量基础数据并有效减少在预测祖先基因组过程中出现的基因丢失情况。本文深入研究了基于最大简约法对祖先基因组的重建算法,即inferCARs算法。该算法使用贪心算法计算目标祖先基因组的简约值,当基础数据量过大时会出现预测基因丢失的情况。本文使用获取备选祖先基因组算法对inferCARs进行了改进,有效降低预测基因丢失量,并提高了预测祖先基因组的准确率。
(2)提出了基于最大似然法的祖先基因组重建算法。本文提出通过计算最大似然值来预测祖先基因组的RAGMLC(Reconstruction of Ancestral Genomes based on Maximum Likelihood Criteria)算法。最大似然法是一种基于进化模型的统计方法,具有统计一致性、健壮性和充分使用原始数据等特点,最大程度降低预测的错误率。RAGMLC采用获取备选祖先基因组算法降低了预测祖先基因组中的基因丢失量,提高了预测的准确性。RAGMLC算法将系统发育树和已知物种的基因组作为算法的输入数据,通过计算系统发育树中所有节点对应基因组的似然值来反应预测的准确性。inferCARs算法只能预测目标祖先基因组,而RAGMLC算法可以准确预测系统发育树中所有节点的祖先基因组。根据物种进化的生物规则,RAGMLC计算整棵系统发育树似然值的方法使预测结果更准确。本文使用模拟数据实验和真实数据实验分别来测试RAGMLC算法和inferCARs算法,结果表明RAGMLC预测的祖先基因组更接近真实祖先基因组。RAGMLC的预测祖先基因组的基因丢失量明显少于inferCARs,同时在DCJ(两个基因组之间的最短重排距离)距离等其他算法评价标准中均可证明RAGMLC预测结果的准确率更高。
(1)提出了获取备选祖先基因组算法。该算法将系统发育树和已知物种的基因组作为输入数据,基于最大简约法原则通过权值计算获取备选祖先基因组。获取备选祖先基因组算法可以处理大量基础数据并有效减少在预测祖先基因组过程中出现的基因丢失情况。本文深入研究了基于最大简约法对祖先基因组的重建算法,即inferCARs算法。该算法使用贪心算法计算目标祖先基因组的简约值,当基础数据量过大时会出现预测基因丢失的情况。本文使用获取备选祖先基因组算法对inferCARs进行了改进,有效降低预测基因丢失量,并提高了预测祖先基因组的准确率。
(2)提出了基于最大似然法的祖先基因组重建算法。本文提出通过计算最大似然值来预测祖先基因组的RAGMLC(Reconstruction of Ancestral Genomes based on Maximum Likelihood Criteria)算法。最大似然法是一种基于进化模型的统计方法,具有统计一致性、健壮性和充分使用原始数据等特点,最大程度降低预测的错误率。RAGMLC采用获取备选祖先基因组算法降低了预测祖先基因组中的基因丢失量,提高了预测的准确性。RAGMLC算法将系统发育树和已知物种的基因组作为算法的输入数据,通过计算系统发育树中所有节点对应基因组的似然值来反应预测的准确性。inferCARs算法只能预测目标祖先基因组,而RAGMLC算法可以准确预测系统发育树中所有节点的祖先基因组。根据物种进化的生物规则,RAGMLC计算整棵系统发育树似然值的方法使预测结果更准确。本文使用模拟数据实验和真实数据实验分别来测试RAGMLC算法和inferCARs算法,结果表明RAGMLC预测的祖先基因组更接近真实祖先基因组。RAGMLC的预测祖先基因组的基因丢失量明显少于inferCARs,同时在DCJ(两个基因组之间的最短重排距离)距离等其他算法评价标准中均可证明RAGMLC预测结果的准确率更高。