论文部分内容阅读
随着高通量测序技术的发展,人类全基因组的测序成本在不断降低,测序速度也有了较为显著地提升。运用生物信息学的手段处理这些海量基因组数据的需求也变得越来越迫切,而对于基因组结构变异的检测更是这个领域的核心内容。基因组结构变异信息不仅很大程度上决定着个体的差异性,更与疾病的发生有着密切的关系。基因组结构变异主要包括片段插入、片段删除、片段倒置、片段重复四种情况,结构变异检测工具主要针对以上四种情况的发生及其变化位点进行检测并报告。当前主流软件大多采用双末端测序数据为输入,并结合split mapping的结果为主来展开研究。本文从高通量测序技术及千人基因组计划入手,进而探讨了模拟数据在结构变异检测评估中的意义。文章分别对Pindel、Delly、SVseq2、PRISM这四款主流结构变异检测工具的实验环境及其结果进行了介绍和分析,为后续实验结果的分析提供了一个比较平台。本文详细介绍了从植入参考序列结构变异信息到最终生成评测结果的详细流程和方案。系统通过将结构变异信息对参考基因组的植入并追踪记录,生成了答案集信息,结合在不同覆盖率情况下结构变异检测工具生成的结果集信息,详细评估了各个结构变异检测工具的性能。同时在系统中实现了对于结果集和答案集专属短序列的分离,从而为科研工作者们试图通过对短序列的分析来改进结构变异信息提供了很好的支持。