论文部分内容阅读
人类基因组计划的完成标志着生命科学从结构基因组学时代进入功能基因组学时代,功能基因组学从分子生物学的角度阐述基因及蛋白质的功能和相互作用。CRISPR/Cas9(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR-associate 9)基因编辑系统基于碱基互补配对原则靶向目标基因,具有更高的稳定性,而且工程上易于操作,成本更低,已在基因编辑领域获得了广泛应用。CRISPR高通量筛选是基于CRISPR/Cas9的全基因组基因功能筛选技术,能够系统地研究基因与表型的关系,是功能基因组学的重要研究工具,对于细胞的必需基因、疾病易感基因和药物靶点等研究具有重要意义。然而,在CRISPR高通量筛选实验和数据分析的各个环节中,仍存在着一些缺陷和不足,包括CRISPR筛选文库脱靶率较高,数据校正效果不佳而影响CRISPR筛选关键基因识别,以及CRISPR关键基因功能分析中,支撑基因调控关系分析以及癌细胞特异的必需基因分析的方法和数据资源匮乏等问题。针对以上问题,本文提出了一系列CRISPR高通量筛选数据整合分析技术,整合了CRISPR高通量筛选实验和数据分析的各个环节,包括高效并行的CRISPR脱靶位点搜索算法,一系列CRISPR筛选数据校正方法,基于单基因扰动数据的基因调控网络分析方法,以及基于海量高通量筛选数据的癌细胞必需基因分析技术。本文主要包括以下四个方面的工作:基于BWT的高效并行CRISPR脱靶位点搜索算法。CRISPR/Cas9基因编辑系统中,向导RNA(single guide RNA,sgRNA)引导Cas9核酸酶到目标DNA区域,并由Cas9对目标基因进行编辑。CRISPR/Cas9系统的基因编辑效率主要依赖于设计良好的向导RNA。然而,向导RNA和Cas9蛋白在结合DNA时都允许若干碱基错配,导致CRISPR/Cas9系统对目标区域以外的DNA造成损伤,引起非特异性的脱靶变异,严重影响了基因编辑的性能。针对这一问题,本文第二章设计实现了一种基于BWT的高效并行CRISPR脱靶位点搜索算法OffScan。OffScan不受向导RNA错配数和PAM限制,采用基于FM索引的后向搜索算法,在保持O(n)的精确搜索时间复杂度前提下,将空间复杂度由O(n~2)降为O(n)。OffScan还设计实现了基于受限遍历的模糊搜索算法,将模糊搜索的时间复杂度由O(|Q||X|)降为O(|Q|~2)(Q为查询串长度,X为母串长度)。并且,OffScan将搜索算法在多核处理器上实现了并行化,并利用三级流水技术实现了并行IO,提高了数据吞吐率。此外,我们还基于OffScan设计了一套高特异向导RNA筛选方法,经测试验证,该方法可以发现更多潜在的脱靶位点,提高向导RNA特异性。面向CRISPR高通量筛选的数据校正方法。CRISPR高通量筛选数据分析的首要目标是识别出在一定的筛选条件下扰动会引起表型变化的基因,而识别这些关键基因需要将实验样本与对照样本进行比较分析。然而,文库大小差异、测序深度不同等因素会导致不同样本的数据之间不具有可比性。此外,在有药物处理的筛选实验中,加药与未加药的样本通常具有不同的生长速率,也会影响关键基因的识别。另外,在染色体拷贝数变异水平较高的区域实施基因敲除筛选时,会造成严重的DNA损伤,引起G2细胞周期停滞,对关键基因识别造成偏倚。针对以上问题,本文第三章提出了一系列数据校正方法,包括基于负向对照基因或非必需基因的读段计数校正方法,基于必需基因的Beta分数校正方法和基于分段线性回归的拷贝数变异校正方法,分别从三个方面系统地对CRISPR筛选数据进行校正。经数据分析验证,我们的方法能够有效消除实验和操作中造成的各种数据偏倚。而且,我们已经将这些数据校正方法集成到CRISPR筛选数据分析工具MAGeCK和MAGeCK-VISPR中,提高关键基因识别的准确度。基于单基因扰动数据的基因调控网络分析方法。识别出CRISPR高通量筛选的关键基因后,需要对关键基因的功能进行分析,确定基因所在的细胞通路和作用。现有分析方法主要基于基因本体和基因集富集分析方法分析关键基因的作用和通路,缺乏能够分析基因调控关系的方法和数据资源。针对这一问题,本文第四章提出了一种基于单基因扰动数据的基因调控网络分析方法。我们整合了15260套单基因扰动表达谱数据和5864套与之对应的ChIP-seq数据,并基于这些数据分析构建了基因共表达网络和基因转录调控网络。为便于分析基因调控关系,我们还设计实现了一个公共数据库SIGMA(http://www.sigmagene.cn/),并将该基因调控网络分析方法整合其中。SIGMA提供了在线交互式基因调控网络分析功能,包括基因差异表达分析、转录因子靶基因分析、基因上游调控元件分析和基因调控网络分析等。基于海量高通量筛选数据的癌细胞必需基因分析技术。鉴定并研究癌症特异的必需基因可以促进对癌细胞生存通路的理解,以及潜在治疗靶点的发现。虽然目前已发表了很多采用高通量筛选技术研究某种癌症特异的必需基因的工作,但是尚无工作将这些数据整合分析,系统研究多种癌症特异的必需基因。本文第五章提出了一种基于海量高通量筛选数据的癌细胞必需基因分析技术。我们整合了近7000套CRISPR和RNAi等高通量筛选数据,包括人类细胞系、小鼠细胞系和活体实验数据,进行了细致校对和统一处理,对各种癌症特有的必需基因进行了系统分析,提出了一种基于海量高通量筛选数据的癌细胞必需基因分析技术。为便于数据查询和分析,我们还设计实现了一个公共数据库CRISP-view(http://crisp-view.cistrome.org/),并将该必需基因分析技术整合其中。CRISP-view支持在线分析挖掘原癌基因、抑癌基因、癌细胞必需基因等关键基因,以及潜在药物靶点等信息,指导药物设计和癌症治疗。