单体分型和单体型频率估计:复杂性及算法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:luo2kai3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关注。但绝大多数所研究的生物个体,包括人类自身,都是双倍体结构;目前由于时间和经济成本上的约束,在实验室里只能得到双倍体结构的复合基因型序列。因此,当需要知道物种或者组织的单体型序列信息时,我们必须借助于计算手段,将每一条基因型序列分解为两条单体型序列,这就是单体分型问题。本文研究了不同数据集及不同模型上单体分型问题的计算复杂性,设计和实现了一系列高效的单体分型和单体型频率估计算法。其主要内容和贡献包括: (1)群体数据集单体分型群体数据集不包含任何家系信息,是最常见的一种基因型数据集。关于群体数据集单体分型问题,目前常见的计算手段有Clark算法、PPH算法以及EM和GS等概率统计算法。本文对一种新近提出的基于最大节约原则的单体分型(HMP)模型进行了研究,证明其是NP-hard的和APX-hard的(即,除非NP=P,否则存在一个常数e>0,该问题没有比1+e好的多项式时间逼近算法)。因此,我们为其设计了一个多项式时间的贪心算法以及一个将贪心策略和分支限界策略集合在统一框架下的复合算法。实验结果表明:贪心算法在保持了较准确分型结果的基础上,运行速度相当快;而复合算法虽是完全算法,但其运行效率和实例规模比原有的分枝限界算法都得到了极大提高。群体数据集中特定基因型序列分型(SGH)判定问题与上述Clark算法相关,它可以帮助我们更好理解单体分型问题。本文证明了SGH问题为NP-complete的。 (2)家系数据集单体分型由于家系信息的对单体构型的限制,基于家系数据集进行的单体分型和单体型频率估计的结果会更加可靠。目前对其研究集中于寻找使得家系中发生最少重组事件的单体构型。本文提出了一个k-最少重组单体分型(k-MRH)模型,它在现有的最少重组单体分型(MRH)模型中引入额外限制,使得重组事件在家系中更加合理地平衡分布。同时设计了k-MRH模型的一个综合了寻根策略的优化动态规划算法,尽管该模型也是NP-hard的,但我们的限制条件使其解空间大大缩小,从而大大提高了算法的搜索效率,这在模拟和实际数据的实验中都得到了验证。 零重组单体分型(ZRH)问题是MRH问题一个特例,其目标是为给定家系求解不包含任何重组事件的单体构型,它在单体分型以及单体型频率估计方面具有重要意义。本文给出了ZRH问题的一个最优的线性时间算法:HCL-连锁分析单体分型算法。 (3)家系数据集单体型频率估计单体型频率估计和单体分型问题密切相关,本文提出了一个两段式的家系数据集单体型频率估计方法:i)、单体分型阶段:用HCL-连锁分析单体分型算法找出所有零重组单体构型;ii),频率估计阶段:发展了原有针对群体数据集的EM算法以在前一阶段得到的单体构型上进行频率估计,并且使用分割-合并技术,将原指数时间的EM算法改造为近似线性时间算法。 以前的直接估计法不考虑家系信息,必须对所有可能的单体型序列进行估计。而我们的两段式方法多了一个分型阶段,该阶段排除了大量不合理和不重要的单体构型。因此,整个频率估计时间大为减少,结果也更加可靠这些都从实验中得到了验证。 按照研究内容分类,本文的创新之处在于:1、群体数据集单体分型证明了HMP模型为NP-hard和APX-hard的;SGH问题为NP-complete的;并为HMP模型成功设计了一个贪心算法和一个复合完全算法,它们能够解决较大规模的问题实例。 2、家系数据集单体分型在MRH模型基础上,提出了一个更加合理的k-MRH模型;并为其设计了一个优化动态规划算法,该算法能够解决大部分实际的k-MRH问题;给出了MRH问题的特例——ZRH问题一个最优的线性时问算法。 3、家系数据集单体型频率估计首次明确指出零重组单体构型可以作为家系数据集单体型频率估计的基础;并由此为后者设计了一个两段式方法,比起以前的直接估计法,该方法所需时间大为减少,结果也更加可靠。
其他文献
随着现场总线技术的推广应用,分布式控制系统发展成为一种开放的、彻底分散的现场总线控制系统,控制子节点不再是进行信号转换、设备控制的简单系统,而是具有一定智能化和通
The Wireless Sensor Networks (WSNs) have become one of the active technologies and been exploited by the various applications.In WSNs, the data, which are sense
消息传输界面MPI是目前使用最广泛的并行程序设计平台,包括点到点通信和集合通信两种模式。作为并行计算的基础,通信的性能对于并行应用程序性能有着重要的影响。MPIAllgather
大学信息化建设初具规模后,随着应用需求的增加和资源的积累,又由于各部门的数据分别分布在不同系统的不同数据库中,因而数据交换与共享的需求日益提高,建设集中的异构数据集
随着航空航天技术的发展,利用卫星和飞机拍摄的图像已经是人类获取地面信息的重要手段之一,遥感图像具有覆盖面积大、内容丰富等特点。本文研究的内容是基于遥感图像的匹配,
云计算的影响正与日俱增,这项新兴的科技吸引了广泛的关注是因为它具有其它任何科技所没有的优点。  转移科学工作流到云环境中,可以使得世界上不同地方的科学家像一个团队一
多媒体技术和网络技术的发展,给人们带来了丰富多彩的视听娱乐数字产品。但是由于数字产品复制不会引起质量下降,因此出现的大量盗版现象,严重地损害了生产商和著作者的积极性,数
解决Web访问延迟问题的主要方案是缓存技术和预取技术。虽然缓存技术在互联网上有着非常广泛的应用,但是随着WWW上动态内容和个性化服务的比重日益增加,缓存技术对网络性能的改
一直以来,各种煤矿灾害给我国的煤炭工业带来了巨大的经济损失,导致了多次重大的人员伤亡,给我国煤炭工业的可持续发展和社会的和谐稳定造成了极大的危害。传统的煤矿虚拟仿真技
随着计算机网络在人们生活中的广泛应用,由网络安全引发的各种问题也越来越普遍,入侵攻击、拒绝服务攻击、网络资源滥用等威胁,为计算机互连网带来了很多负面的影响,尤其1993年In