基于二代测序的基因组缺失变异综合检测策略

被引量 : 0次 | 上传用户:jiaoqianqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,二代测序技术取得长足进步,以该技术为基础的结构变异检测方法层出不穷。然而,受测序序列的低覆盖甚至无覆盖、测序误差较大、二代测序序列短等因素制约,单一地使用这些方法并不能取得很好的检测效果。本文围绕一种重要的结构变异类型——缺失变异,利用多组二代测序数据,对检测方法进行了研究,并深入分析了所获结果。本文的主要内容如下:(1)为了能够有效地评估本文所提出的综合检测策略,对缺失变异检测环境进行研究,详述了使得所产生数据尽可能接近于真实数据的仿真平台搭建方法,包括缺失变异标准集的生成、二倍体个体基因组序列的仿真以及配对末端测序的模拟。(2)提出了一种能够有机融合主流的三类结构变异检测理论的综合检测策略。该策略的执行分为两个阶段:第一阶段,以极大化检测敏感度为目的,将配对末端测序序列映射到参考序列上后做分裂比对,使该阶段所获候选集中包括尽量多的1bp级缺失;第二阶段,以极小化假发现率为目的,根据映射深度分析、分裂比对和序列对映射分析三类理论,充分利用初次映射和二次分裂比对的两次比对结果,对每一候选缺失变异提取判别其真伪的相关特征,接着使用具有高泛化性能的判别模型筛除候选集中的伪阳性结果。实验结果表明,相对于传统的分裂比对方法,所提策略不仅可以将变异断点定位到1bp解析度,还能够有效地降低假发现率,并且基本不会造成检测敏感度的损失。(3)研究了支持向量机和随机森林机器学习算法对于本文所提出综合检测策略的适用性,并且进一步分析了综合表征中的各特征在缺失变异检测过程中所发挥的作用。实验结果表明,以具有良好泛化性能的机器学习模型为判别模型,可很好地达到不以检测敏感度的损失为代价且降低假发现率的目的。此外,对综合表征中各特征的重要性研究发现,各特征对模型预测准确率的影响会随着测序序列覆盖深度的变化而发生转变。
其他文献
结合宁波卫生行业信息化建设的实际情况,从当前药品管理、采购所面临的问题入手,论述药品采购及零库存管理信息系统的建设方案、系统构架、详细功能、实现策略等,展示了一种
随着我国社会主义市场经济的发展,农村妇女就业结构和形势发生了根本的变化。如何解决好妇女就业问题,实现农村经济又好又快发展。本文就以萧县为例,分析萧县农村妇女就业存
随着国家经济的快速发展,地质勘探产业也有了突飞猛进的跨越,不仅在经济上为国家注入新的动力,在科学技术上也有新的研究和进步。电成像测井技术在地质勘探中经常被用到,这种技术
采用固相微萃取法提取‘爱甘水’梨果实生长发育过程的香气成分,经气相色谱-质谱联用技术分析花后不同时期‘爱甘水’梨果实的香气成分。结果表明,‘爱甘水’梨果实香气成分
本报告是以黄石市农村地区环境卫生状况为切入点,主要从村民个人卫生和整体环境两个方面展开分析。并以全面性、层次化、前瞻性、差异化的原则为主要调查思想,科学调查黄石市
目前我国许多运营中的水泥混凝土路面已经接近设计使用年限,许多道路出现开裂、板底脱空等破坏情况,因而对旧水泥混凝土路面进行养护、改建已经成为公路管理部门亟需解决的问
探讨医院的冷链管理现状,冷链监控系统的构成和原理,冷链管理中遇到的问题及改进措施。
索氟布韦是由Gilead公司研发的抗丙型肝炎病毒的新型药物,其化学名称为N-[[P(S),2’R]-2’-脱氧-2’-氟-2’-甲基-P-苯基-5’-尿苷酰基]-L-丙氨酸异丙酯,于2013年12月6日由FD
随着现代地理空间信息技术的飞速进步,GIS在各行各业中的应用得到了巨大发展。在过去的几十年中,GIS对社会发展的各个方面起到了巨大的推动作用。然而,随着计算机信息等技术
体育场馆是竞技体育和健身活动重要的物质载体,直接关系着体育运动的发展水平以及居民的身体健康状况和生活质量,而公共体育场馆的建设是体育文化事业发展的重要基础与标志,