多倍体单体型组装算法研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:cyx810625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类已知的疾病都与基因有着直接或者间接的联系,研究不同个体间基因序列的差异对于了解人类的遗传,以及预防疾病等方面都有着重要的作用。SNP是单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。一个区域中倾向于以整体遗传给后代的SNP序列被称作是单体型。但受到测序技术的限制,直接通过测序得到完整的单体型序列十分困难,因此如何将测序得到的片段组装成单体型起来成为了一个新的难点。现有的单体型组装问题根据其优化原则大致有MSR,MFR,MEC等几类,这些问题绝大多数是NP-难的,多倍体单体型的组装由于其复杂的分型情况,缺乏有效的实用算法。由于新一代测序技术成本的降低和片段长度的增加,从测序片段重建多倍体基因组的多个单体型变得可行。本文提出了两个在新一代测序技术下的多倍体单体型组装算法Qhap和QChap算法。这两个算法都是基于MEC算法的改进。Qhap算法通过限制SNP矩阵中每一列的最大翻转数,大大降低了时间复杂度;同时引入了置信度分析,使得得到的单体型更加符合真实情况。对于从k-倍体基因组测序得到的片段,该算法试图将片段划分成k组,使得翻转位点的置信度分数总和最低。QChap算法是在Qhap算法的基础上,每列最大翻转个数由固定值改进为随着测序错误率和每列覆盖度变化情况而动态调整的值。在模拟和真实数据上的大量实验测试结果表明,Qhap和QChap算法可以有效地解决多倍体单体型组装问题,并且比近期的多倍体单倍型组装算法更快,更准确。
其他文献
在社会分化加剧、流动性增强的现代社会中,社会交往存在着较强的匿名性和不确定性。为降低交往成本,个体不得不对社会大多数人给予信任。一般信任研究因此而广受学界关注。为
内源性活泼羰基类代谢物参与许多重要的生物学过程,如物质代谢和氧化应激,并涉及多类疾病的发生。由于这类化合物含量低、结构多样、稳定性差,生物样品复杂,难以对其进行有效
全文包括绪论,陈云党建思想的形成条件与发展历程,革命环境下陈云党建思想的主要内容,执政环境下陈云党建思想的主要内容,陈云党建思想的特点、主要贡献和当代意义,结论六个
全球极端气候导致的自然灾害越来越成为世界政府部门及学术专家关注的热点话题之一,而我国自然灾害种类构成众多,其导致的后果波及地域广泛,经济损失惨重,且人员伤亡更是不计
根据摩尔定律,半导体工业中,集成电路每一年半到两年时间其集成化就会有一倍的提升,然而传统工艺所使用的硅材料受到制备工艺的限制,已经快要到达极限。寻找合适的材料来替代
贾平凹是中国现当代文坛上的巨星,他的作品极具叛逆性和创新精神。《废都》是20世纪九十年代贾平凹创作的一部长篇小说,该小说在国内遭禁16年,却在外国赢得声誉,小说于1997年
血栓和内膜增生是导致人造血管无法在体内保持长期通畅的主要原因。研究表明,在人造血管管腔表面形成一个完整的内皮细胞单层能够有效遏制血栓形成并减少内膜增生。因此增强
保罗·桑德比在试验中不断地提高水彩艺术的技巧,以色彩来表现光色、空间,并赋予画面以诗情画意般的审美意境,其绘画题材不仅仅局限于乡村风景,城市街道生活也同样是保罗·桑
Ilamycins是中国科学院南海海洋研究所鞠建华教授课题组从深海放线菌中发现的一系列环肽天然产物。生物活性测试表明,Ilamycin E对结核分枝杆菌有显著的抑制活性(MIC=9.8 nM)
在社会文明和科学技术高度发达的今天,科学技术的发展催化出各式各样的包装。过度包装导致的资源浪费、模仿国外设计风格的包装设计带来的审美疲劳和本土文化不自信等现象,影