利用树操作求解基因复制与丢失问题

来源 :山东大学 | 被引量 : 0次 | 上传用户:aaxiongaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1859年11月24日,英国生物学家Charles Robert Darwin发表了《物种起源》一书,提出了生物进化论学说。科学家们发现可以通过进化树来形象的展现物种之间所存在的遗传系谱关系。这样的进化树又称为系统发生树,它描绘了自然界中不同物种之间的进化关系。如何构建这样的一棵进化树已经成为生命科学的-个基本问题。随着基因技术的发展,人类逐渐掌握了越来越多的基因组序列信息。这些基因组序列信息为我们研究物种的演化史提供了大量的,潜在的数据。基于这些基因组序列信息,科学家们提出了一些用来构建生物进化树的模型和方法。这些模型或者方法有着一个共同的特征:都是将携带着大量遗传信息的基因作为研究起点来构建进化树。一般来说,为了构建一组物种的进化树,科学家们首先是根据从这些物种中得到的基因组序列信息来构建一组树,称之为基因树。在这一过程中,暗含着这样的一个假设:我们所选中的基因组序列的演化史模拟了物种的演化史。但是由于在生物进化过程中包含了诸如基因复制、基因丢失、基因重组等多种复杂的生物事件,所以,根据基因组序列信息所构建的进化树可能并不能正确的表达与之对应的物种之间的进化历史。基因复制与基因丢失是常见的生物进化现象,在生物进化史中扮演着举足轻重的角色。为了能够更好的解决进化树构建这一问题,Goodman等人提出了基因复制和丢失模型。它可以从一组基因树中推断出一棵能够准确的表达物种进化关系的物种树。在基因复制和丢失模型中,我们可以通过解决基因复制问题和基因丢失问题来推断出正确的物种树。这两个问题都是以一组基因树作为输入,目标是找到一棵最优的物种树,使得基因复制(或者基因丢失)的数量最少。Ma Bin等人证明了这两个问题都属于NP-hard问题。所以,在实际应用中,基于局部搜索的启发式算法通常被用来解决这两个问题。在本文中,我们深入研究了当前已有的解决基因复制与基因丢失问题的算法,并对基于SPR(rooted subtree pruning and regrafting)和TBR(tree bisection and reconnection)这两种树操作的算法进行了改进:(1)具体分析了基于SPR操作的基因复制问题算法的实现过程,发现了其中有很重要的一步存在着大量的冗余计算,并设计了一个新的算法,去除了冗余计算。实验表明改进后的算法在性能上有了较大提高。(2)根据SPR操作与TBR操作之间的联系,提出了一种解决基于TBR操作的基因丢失问题的新算法。
其他文献
随着互联网技术以及各种数据库应用的快速发展,数据存储以及数据传输过程中所涉及的数据复杂程度已远超过传统的数据,许多现代的应用都要分析和处理一些不可靠、不一致和不准确
从90年代初开始,随着人类基因组计划的展开与深入,科学工作者发现,人类的各种遗传、性状和甚至疾病等都与基因有着密切的联系。基因的载体是染色体,即一条完整的基因序列。不
随着科学技术的发展,越来越多的单产品处理器被批处理器所取代。人们对批调度问题的研究达到了前所未有的高度,其中大多数工作是针对单机并行批调度问题的研究。   论文研
随着数码相机的广泛应用,人们在旅游、聚会等场合越来越多地使用相机来记录一些有意义的、值得回忆的场景。但由于场景中的场地、光照或者天气不合适、相机性能的限制和用户
随着信息时代的来临,人们在日常生活中获取的信息量与日俱增。如何在海量数据中选取对自己有用的信息,成为目前广大用户面临的主要任务。在此情况下,数据挖掘技术应运而生并
随着当前计算机技术的不断发展,特别是Internet技术的发展,文本信息的数量呈现爆炸式增长。如何帮助人们有效的获取自己需要的信息,成了信息处理领域一个亟需解决的问题。而
网络数据传输和处理能力的大幅度提高使得基于组播技术的多点间数据传输需求日益增加。网络编码理论是21世纪初在信息论和网络通信研究领域中的一个重大突破,而网络组播中的
优化技术是一种以数学为基础,用于求解各种工程问题最优解或者满意解的应用技术,任何控制与决策问题本质上都可以归结为优化问题。对优化问题的求解已有的经典优化方法,主要包括
随着信息时代的到来和多媒体技术的飞速发展,多媒体因其丰富形象的表现形式,已经成为信息数据的重要载体之一。在视频信息的大量涌现和迅猛发展的情况下,如何快速有效地处理
目前增强现实系统的应用越发广泛。在增强现实系统中,相机跟踪、虚实融合和人机交互是三大核心问题。当用户使用增强现实系统时,徒手交互是最自然的交互方式之一。然而当前手