SNP de novo分型中的数学问题

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:wpe2727
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组学技术的快速发展为生物研究提供了基因组、转录组、蛋白质组、代谢组等不同层面的数据,为从系统水平上了解性状的遗传变异提供了基础。SNP(single nucleotidepolymorphisms)被认为是基因组中最广泛,揭示遗传变异理想首选的分子标记,被广泛的应用于重要疾病相关联的基因筛选、不同物种遗传图谱的构建、动植物重要经济性状的QTL定位、群体遗传结构和系统演化分析等。近几年来一系列基于高通量测序平台的“简化基因组”技术(GCR)的方法如RAD-seq、GBS、RRLs等成为非模式生物尤其是水生动物的SNP de novo规模开发和大样本群体遗传研究的有利途径。   由于大部分水生动物参照基因组缺乏,加上当前测序数据的序列很短只有大约30到100bp,使得SNP de novo分型相对于有参照基因组情况而言有以下的三个困难:(1)如何区分来自重复序列区域内SNP。(2)如何排除测序错误对SNP分型的影响。(3)测序数据量与获得SNP数目及SNP分型准确率的关系。   本文结合基于高通量测序平台的RAD-seq等简化基因组测序SNPde novo分型技术,在前人的基础上进一步讨论SNP de novo分型中的若干数学问题,并从理论上回答了上面提出的三个问题:认为低频等位基因深度不小于2是排除测序错误对SNP分型干扰前提,15~20X的测序数据量理论能够使得SNP de novo分型的准确率达到98%以上,而且能够有效的检测90%以上的单拷贝区域内的SNP。并且利用拟南芥RAD-seq模拟数据验证了所有理论推导的正确性,这为SNP de novo分型的实际数处理提供了理论指导。   此外基因组中大量重复序列的存在使得短的序列 de novo聚类后的“堆”深度分布偏离了理论上的泊松分布,本文首次从理论上给出了基于基因组复杂性的“堆”深度分布服从混合泊松分布的新模型,并将这一信息有效的加入到了当前主流Stacks软件中ML分型方法中,提出了新的 de novo SNP分型算法iML,并用模拟数据和实际数据对iML算法进行了全面的评价。评价结果表明将“堆”深度信息加入到SNP分型过程中时降低SNP假阳性率的有利途径之一,在各种情况下模拟数据中iML的假阳性率低于ML约8%~23%而假阴性仅比ML高不到1%。在实际数据评价中iML分型方法依然展现了比ML具有较低假阳性率的优势(3%~17%),而假阴性率和ML相当。   但是我们也看到在实际数据的分析中iML本身也具有较高假阳性率(19%~23%),这告诉我们单纯的通过“堆”的分布来降低SNP假阳性率思路仍然具有其局限性,更多的改变需要来自基因组学生物技术的革新。
其他文献
本文研究非线性互补问题及非光滑凸极小化问题的数值算法。对于非线性互补问题,提出几种基于半光滑方程组的算法。对于非光滑凸函数极小化问题,基于正则化技术,提出求解问题的一
本文研究的是两类微分方程三点边值问题,在满足Leggett-W illiam s不动点定理的条件下,分别探讨并证明了二阶脉冲时滞微分方程及分数阶微分方程的三点边值问题的三个对称正解的
在小波分析研究领域中,传统意义上的小波框架的研究主要是基于二带的情形进行的,但是实际应用中二带情形并不能够满足所有的需求,多带小波框架往往能在一些条件下取得更佳理想的
信号源盲分离是近些年才发展起来的新兴技术,在图象处理、医学生物工程、通信处理等领域有着广泛而诱人的应用前景.信号源盲分离是指在信号混合过程未知的情况下,从观测到的
区别于传统的监督学习中每个样本只属于一个类别标签的学习框架,多标签学习中的一个样本同时标注为多个类别标签的学习框架能够更有效地分析现实世界中所存在的问题。多标签