基于最大似然法对重建祖先基因组的研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:myevanlee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组重建是生物信息学的重要研究领域,可促进基因组比较和分析的发展。祖先基因组的重建过程是对一组物种的系统发育研究,可获得关于祖先物种的信息,如基因含量,和这些基因在基因组中的顺序和方向,核苷酸序列等等。这些信息可以帮助研究人员了解物种的形成和进化的历史,以及物种之间的进化关系。因此,研究重建祖先基因组的方法具有重要意义。本文提出了基于最大似然法的祖先基因组重建算法和获取备选祖先基因组算法。主要研究内容:
  (1)提出了获取备选祖先基因组算法。该算法将系统发育树和已知物种的基因组作为输入数据,基于最大简约法原则通过权值计算获取备选祖先基因组。获取备选祖先基因组算法可以处理大量基础数据并有效减少在预测祖先基因组过程中出现的基因丢失情况。本文深入研究了基于最大简约法对祖先基因组的重建算法,即inferCARs算法。该算法使用贪心算法计算目标祖先基因组的简约值,当基础数据量过大时会出现预测基因丢失的情况。本文使用获取备选祖先基因组算法对inferCARs进行了改进,有效降低预测基因丢失量,并提高了预测祖先基因组的准确率。
  (2)提出了基于最大似然法的祖先基因组重建算法。本文提出通过计算最大似然值来预测祖先基因组的RAGMLC(Reconstruction of Ancestral Genomes based on Maximum Likelihood Criteria)算法。最大似然法是一种基于进化模型的统计方法,具有统计一致性、健壮性和充分使用原始数据等特点,最大程度降低预测的错误率。RAGMLC采用获取备选祖先基因组算法降低了预测祖先基因组中的基因丢失量,提高了预测的准确性。RAGMLC算法将系统发育树和已知物种的基因组作为算法的输入数据,通过计算系统发育树中所有节点对应基因组的似然值来反应预测的准确性。inferCARs算法只能预测目标祖先基因组,而RAGMLC算法可以准确预测系统发育树中所有节点的祖先基因组。根据物种进化的生物规则,RAGMLC计算整棵系统发育树似然值的方法使预测结果更准确。本文使用模拟数据实验和真实数据实验分别来测试RAGMLC算法和inferCARs算法,结果表明RAGMLC预测的祖先基因组更接近真实祖先基因组。RAGMLC的预测祖先基因组的基因丢失量明显少于inferCARs,同时在DCJ(两个基因组之间的最短重排距离)距离等其他算法评价标准中均可证明RAGMLC预测结果的准确率更高。
其他文献
学位
学位
学位
学位
学位
学位
学位
随着数字图像扫描、存储以及传输设备的飞速发展,基于内容的图像检索技术正成为当前图像处理领域的一个主要研究热点。基于内容的图像检索技术是一门包含模式识别、图像处理、计算机视觉以及心理学等多学科综合技术。其主要研究内容包括图像特征提取、图像检索性能评价、人类感知以及图像检索方法等。本文在总结前人研究成果的基础上,围绕目前图像检索中有关关键问题,开展了深入研究。主要体现在:  1.基于ROI的图像特征提
学位
为了避免智能驾驶车辆在道路行驶过程中与其他人工驾驶车辆发生碰撞,需要预测人工驾驶车辆未来一段时间的行驶轨迹,以便智能车辆做出合理的决策规划,提高行驶安全性和乘坐舒适性。但目前预测车辆运动轨迹的方法大多停留在基于模型和基于数据驱动的理论研究阶段,存在预测时长短、处理场景单一、实时性和稳定性不好等缺点,无法投入实用。因此,本文设计了一种基于LSTM的车道序列预测算法并开发了一种实时动态车辆未来轨迹预测
在当今数字时代,海量流式数据正在各种实际应用场景中不断的自动生成。由于数据流具有无限长度及演化的特性,使得学习算法必须在有限的时间内进行处理,因此如何开发高效的数据流学习算法一直是机器学习面临的挑战。为此,大量概念漂移的数据流学习算法在过去十年中相继提出。然而现有数据流挖掘仍面临一些新的问题和挑战。首先是数据的概念演化(即新类问题)。传统分类器往往聚焦固定的类别,而在实际场景中,新的类别可能会随时
学位