论文部分内容阅读
变异是遗传学的基本研究对象,而基因组变异是产生其他类型变异的基础,因此,准确有效的基因组变异检测手段是遗传学研究的前提,在很多其他研究领域中也具有重要意义。随着人类基因组全序列的测定以及随后下一代测序技术的问世,基因组变异的检测手段进入了大规模、高通量时代。通过构建文库、上机测序、比对序列、检测变异这样的一般流程,就可获得分布于全基因组的大量变异信息。与之对应,也涌现了大量的基因组变异检测技术。然而,对于广泛存在于多细胞生物基因组中的结构变异和低频变异,仍然需要开发更好的检测手段。本论文主要介绍了通过改进序列文库的构建流程并开发相应的计算方法来深度挖掘基因组结构变异和低频变异的技术研究。ditag技术是一项用低测序覆盖度序列检测大型基因组中等大小缺失的技术。用限制性内切酶消化肝癌基因组DNA并独立构建了两个配对测序文库(mate-paired library).通过SOLiD测序,共产生了3Gb(约为1×人类基因组大小)限制性配对短序列(ditags),并通过分析ditags与参考序列的异常比对结果,检测到175个中等大小的缺失。Sanger测序结果显示总体的准确率为95%。两个文库的检测结果显示了ditag测序技术良好的重现性。使用ditag检测缺失的计算流程分析四种不同品系驯养鸡的双端RRL数据,也同样成功检测到了六千余个基因组缺失,检测效率远高于配对关系分析法(read pair analysis).虚拟长序列(Pseudo-Sanger)技术是补足双端测序序列中空余的插入片段,从而得到500-600bp长序列的方法.由黑腹果蝇W1118(Drosophila melanogaster)的基因组D认构建插入长度分布为100-600bp的梯度文库并双端测序。使用AnyTag软件将所测得的6364万条短序列拼接成569万条虚拟长序列。将虚拟长序列与基因组参考序列比对,共检测到876个结构变异,包括723个缺失、122个插入或重排和31个倒位。经过实验验证,总体的检测准确度为85.7%(54/63),证明虚拟长序列可以准确的检测基因组结构变异的断点。“序列家族”(read family)分析技术是从微量组织DNA文库测序结果中分析低频变异的技术。取仅包含100个细胞的肝硬化组织样品,将其基因组DNA打断并全基因组扩增、建库和双端测序,由于总模板数远小于DNA片段断裂位置可能产生的组合数,可根据配对序列的起始位置将序列聚类成序列家族,并通过判断不少于5个成员的序列家族内部序列的一致性,得以排除测序错误对检测低频变异带来的影响。由此,我们共得到212Mb来自单分子的家族序列,并从中检测到93个低频体细胞变异。对结构变异和低频变异的检测是当今基因组学研究的热点和难点。本论文所提出的几种技术通过对实验和分析手段的创新,成功地在人类的癌细胞、肝细胞和果蝇基因组中检测到结构变异或低频变异,并且在投入成本、检测准确性等方面具有一定的优势,在遗传学、发育生物学、癌生物学、生态学及转化医学等领域有广阔的应用前景。