基于枚举策略的二倍体单体型重建算法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:zhangbo330330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SNP(Single Nucleotide Polymorphism)分析在探究生物群体的遗传关系、分析疾病关联性等方面发挥着重要的作用,但与单个SNP相比,单体型数据包含了更加丰富的遗传信息,其在基因相关研究及医学治疗中发挥着重要的作用。然而,利用实验方法获取单体型数据的成本过于昂贵,因此利用计算方法获取单体型数据的单体型重建问题应运而生,并受到了广泛的关注。本文针对二倍体单体型重建问题展开研究,具体工作如下:针对最少错误更正模型对重建问题进行研究,提出一种基于支持度选取枚举值的重建算法EHDMS(Enumeration Haplotyping Diploid with More Support)。EHDMS算法依次重建单体型中的每个位点,对于给定位点,首先枚举该位点的两种取值情况,然后选择覆盖该位点的片段的更高支持度的取值,作为该位点的重建值。选取HapMap发布的CEPH样本中的单体型进行实验,采用CELSIM和MetaSim两种测序片段模拟生成器生成实验测试数据。通过设置不同片段覆盖率、错误率、单片段长度和单体型长度等参数,对算法EHDMS、 FAHR、Fast Hare和DGS的重建率和运行时间进行对比分析。实验结果表明,EHDMS算法在大部分情况下能获得较其它三种算法更高的重建率,并且具有较高的运行效率。针对最少错误更正模型,提出一种基于差异度选取枚举值的重建算法EHDLD (Enumeration Haplotyping Diploid with Least Difference)。当枚举出给定位点的取值时,分别计算两种取值情况下,单体型与覆盖该位点的片段的距离和,并选择对应于较小片段差异度的取值,即对应于距离和较小的取值。实验结果表明,EHDLD与EHDMS算法具有相近的问题求解性能,且其在大部分情况下能获得较FAHR、Fast Hare和DGS三种算法更高的重建率。综上所述,本文针对最少错误更正模型,提出选取枚举值的重建算法EHDMS和EHDLD。实验结果表明,这两个算法均能以较快的求解速度获得较高的重建精度,是重建二倍体单体型的有效方法。
其他文献
光照问题是人脸识别面临的主要难题之一,由于光照变化改变图像灰度空间的分布,当使用灰度信息特征去识别人脸时,往往会使类内差异(同一个人的不同人脸图像)大于类间差异(不同
随着城市轨道的快速发展,行车安全受到越来越多的关注。在列车运行过程中,司机在长期集中注意力的情况下难免会有疏忽,借助计算机辅助列车安全运行已成为主流的研究方向。目
近年来人工智能渐渐成为改善和提高游戏质量的热门研究课题之一,在游戏设计中开发者越来越重视虚拟角色的智能行为。在游戏开发中,人工智能是一个既重要而又复杂的模块,虚拟
如今,随着商务化程度的不断提高,全世界商务机构的决策者们需要不断寻求新的方法来了解和提高他们的业务和产业。过去的历史告诉我们,知识需要去粗取精、不断的更新。几个世纪以
互联网的普及使人们的社交模式发生了深刻变化,便利的平台也为人们的社交提供了巨大的方便。随着用户数量日益增加,网络数据量也越来越大,成为了当前互联网中的一种重要资源,
XML正迅速取代HTML成为Web上数据表示、集成和交换的标准,与HTML相比,XML格式简单,自我描述能力强,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近年来XML在许多领
学位
随着分子生物学和高通量基因测序技术的飞速发展,大量的DNA序列数据已被测定,这为研究基因家族分子进化提供了必要的前提条件。根据现有生物基因重建基因家族进化史可以推断
访问控制是保障信息系统安全的一种有效手段,它限定只有合法的用户才能拥有合适的访问权限,以防止非法用户或合法用户的非法操作对信息系统造成破坏。委托授权是一种重要的授
呼叫中心是企业通过现代通信技术和计算机技术为用户提供服务的一种沟通渠道。随着企业呼叫中心对多种通信方式融合的需求越来越强烈,统一通信技术正在不断发展并被广泛应用
在虚拟场景漫游时,观察者走到每一点都需要尽可能快得确定哪些对象是可见的,因此设计合适的可见性计算方法不仅能实现快速绘制,还能节省存储空间和内存空间。二维情况下,就是