论文部分内容阅读
近年来,二代测序技术取得长足进步,以该技术为基础的结构变异检测方法层出不穷。然而,受测序序列的低覆盖甚至无覆盖、测序误差较大、二代测序序列短等因素制约,单一地使用这些方法并不能取得很好的检测效果。本文围绕一种重要的结构变异类型——缺失变异,利用多组二代测序数据,对检测方法进行了研究,并深入分析了所获结果。本文的主要内容如下:(1)为了能够有效地评估本文所提出的综合检测策略,对缺失变异检测环境进行研究,详述了使得所产生数据尽可能接近于真实数据的仿真平台搭建方法,包括缺失变异标准集的生成、二倍体个体基因组序列的仿真以及配对末端测序的模拟。(2)提出了一种能够有机融合主流的三类结构变异检测理论的综合检测策略。该策略的执行分为两个阶段:第一阶段,以极大化检测敏感度为目的,将配对末端测序序列映射到参考序列上后做分裂比对,使该阶段所获候选集中包括尽量多的1bp级缺失;第二阶段,以极小化假发现率为目的,根据映射深度分析、分裂比对和序列对映射分析三类理论,充分利用初次映射和二次分裂比对的两次比对结果,对每一候选缺失变异提取判别其真伪的相关特征,接着使用具有高泛化性能的判别模型筛除候选集中的伪阳性结果。实验结果表明,相对于传统的分裂比对方法,所提策略不仅可以将变异断点定位到1bp解析度,还能够有效地降低假发现率,并且基本不会造成检测敏感度的损失。(3)研究了支持向量机和随机森林机器学习算法对于本文所提出综合检测策略的适用性,并且进一步分析了综合表征中的各特征在缺失变异检测过程中所发挥的作用。实验结果表明,以具有良好泛化性能的机器学习模型为判别模型,可很好地达到不以检测敏感度的损失为代价且降低假发现率的目的。此外,对综合表征中各特征的重要性研究发现,各特征对模型预测准确率的影响会随着测序序列覆盖深度的变化而发生转变。