CRISPR高通量筛选数据的整合分析技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ywg005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的完成标志着生命科学从结构基因组学时代进入功能基因组学时代,功能基因组学从分子生物学的角度阐述基因及蛋白质的功能和相互作用。CRISPR/Cas9(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR-associate 9)基因编辑系统基于碱基互补配对原则靶向目标基因,具有更高的稳定性,而且工程上易于操作,成本更低,已在基因编辑领域获得了广泛应用。CRISPR高通量筛选是基于CRISPR/Cas9的全基因组基因功能筛选技术,能够系统地研究基因与表型的关系,是功能基因组学的重要研究工具,对于细胞的必需基因、疾病易感基因和药物靶点等研究具有重要意义。然而,在CRISPR高通量筛选实验和数据分析的各个环节中,仍存在着一些缺陷和不足,包括CRISPR筛选文库脱靶率较高,数据校正效果不佳而影响CRISPR筛选关键基因识别,以及CRISPR关键基因功能分析中,支撑基因调控关系分析以及癌细胞特异的必需基因分析的方法和数据资源匮乏等问题。针对以上问题,本文提出了一系列CRISPR高通量筛选数据整合分析技术,整合了CRISPR高通量筛选实验和数据分析的各个环节,包括高效并行的CRISPR脱靶位点搜索算法,一系列CRISPR筛选数据校正方法,基于单基因扰动数据的基因调控网络分析方法,以及基于海量高通量筛选数据的癌细胞必需基因分析技术。本文主要包括以下四个方面的工作:基于BWT的高效并行CRISPR脱靶位点搜索算法。CRISPR/Cas9基因编辑系统中,向导RNA(single guide RNA,sgRNA)引导Cas9核酸酶到目标DNA区域,并由Cas9对目标基因进行编辑。CRISPR/Cas9系统的基因编辑效率主要依赖于设计良好的向导RNA。然而,向导RNA和Cas9蛋白在结合DNA时都允许若干碱基错配,导致CRISPR/Cas9系统对目标区域以外的DNA造成损伤,引起非特异性的脱靶变异,严重影响了基因编辑的性能。针对这一问题,本文第二章设计实现了一种基于BWT的高效并行CRISPR脱靶位点搜索算法OffScan。OffScan不受向导RNA错配数和PAM限制,采用基于FM索引的后向搜索算法,在保持O(n)的精确搜索时间复杂度前提下,将空间复杂度由O(n~2)降为O(n)。OffScan还设计实现了基于受限遍历的模糊搜索算法,将模糊搜索的时间复杂度由O(|Q||X|)降为O(|Q|~2)(Q为查询串长度,X为母串长度)。并且,OffScan将搜索算法在多核处理器上实现了并行化,并利用三级流水技术实现了并行IO,提高了数据吞吐率。此外,我们还基于OffScan设计了一套高特异向导RNA筛选方法,经测试验证,该方法可以发现更多潜在的脱靶位点,提高向导RNA特异性。面向CRISPR高通量筛选的数据校正方法。CRISPR高通量筛选数据分析的首要目标是识别出在一定的筛选条件下扰动会引起表型变化的基因,而识别这些关键基因需要将实验样本与对照样本进行比较分析。然而,文库大小差异、测序深度不同等因素会导致不同样本的数据之间不具有可比性。此外,在有药物处理的筛选实验中,加药与未加药的样本通常具有不同的生长速率,也会影响关键基因的识别。另外,在染色体拷贝数变异水平较高的区域实施基因敲除筛选时,会造成严重的DNA损伤,引起G2细胞周期停滞,对关键基因识别造成偏倚。针对以上问题,本文第三章提出了一系列数据校正方法,包括基于负向对照基因或非必需基因的读段计数校正方法,基于必需基因的Beta分数校正方法和基于分段线性回归的拷贝数变异校正方法,分别从三个方面系统地对CRISPR筛选数据进行校正。经数据分析验证,我们的方法能够有效消除实验和操作中造成的各种数据偏倚。而且,我们已经将这些数据校正方法集成到CRISPR筛选数据分析工具MAGeCK和MAGeCK-VISPR中,提高关键基因识别的准确度。基于单基因扰动数据的基因调控网络分析方法。识别出CRISPR高通量筛选的关键基因后,需要对关键基因的功能进行分析,确定基因所在的细胞通路和作用。现有分析方法主要基于基因本体和基因集富集分析方法分析关键基因的作用和通路,缺乏能够分析基因调控关系的方法和数据资源。针对这一问题,本文第四章提出了一种基于单基因扰动数据的基因调控网络分析方法。我们整合了15260套单基因扰动表达谱数据和5864套与之对应的ChIP-seq数据,并基于这些数据分析构建了基因共表达网络和基因转录调控网络。为便于分析基因调控关系,我们还设计实现了一个公共数据库SIGMA(http://www.sigmagene.cn/),并将该基因调控网络分析方法整合其中。SIGMA提供了在线交互式基因调控网络分析功能,包括基因差异表达分析、转录因子靶基因分析、基因上游调控元件分析和基因调控网络分析等。基于海量高通量筛选数据的癌细胞必需基因分析技术。鉴定并研究癌症特异的必需基因可以促进对癌细胞生存通路的理解,以及潜在治疗靶点的发现。虽然目前已发表了很多采用高通量筛选技术研究某种癌症特异的必需基因的工作,但是尚无工作将这些数据整合分析,系统研究多种癌症特异的必需基因。本文第五章提出了一种基于海量高通量筛选数据的癌细胞必需基因分析技术。我们整合了近7000套CRISPR和RNAi等高通量筛选数据,包括人类细胞系、小鼠细胞系和活体实验数据,进行了细致校对和统一处理,对各种癌症特有的必需基因进行了系统分析,提出了一种基于海量高通量筛选数据的癌细胞必需基因分析技术。为便于数据查询和分析,我们还设计实现了一个公共数据库CRISP-view(http://crisp-view.cistrome.org/),并将该必需基因分析技术整合其中。CRISP-view支持在线分析挖掘原癌基因、抑癌基因、癌细胞必需基因等关键基因,以及潜在药物靶点等信息,指导药物设计和癌症治疗。
其他文献
家庭微电网中包含光伏和电动汽车等不确定性电源和负载,没有合理的能源管理策略容易导致家庭微电网失稳。在V2G系统中构造了一个同时考虑电动汽车、住宅、电池和可再生能源发
本文主要简述了冀西北坝上高寒半干旱区施用有机无机肥料对旱地栗钙土莜麦的增产效果、基础肥力物质、有机无机复合状况、腐殖质结合形态、土壤酶活性状况以及团聚水平、团聚
研制机车柴油机工作状态监测记录诊断装置,能及时准确和动态地掌握机车柴油机的运行状态,预测、诊断存在的和潜在的故障,提高机车柴油机运行的可靠性,保证铁路运输的"安全、
本研究建立了应用单项污染指数及内梅罗综合污染指数法评价生乳中重金属的污染情况的方法,以分析不同地区的污染情况;并且对于生乳中低浓度的重金属残留及没有残留限量的重金
为了探讨耐喹诺酮类决定区(QRDR)、外排泵负调控基因(acrR、marR和soxR)突变对临床分离株氟喹诺酮(FQs)高水平耐药的影响,本研究对临床分离的18株FQs耐药大肠杆菌(E.coli),采用PCR方
ERP作为一种先进的管理工具正在被我国推广应用,ERP开发商向院校推出ERP实验中心,与院校携手培养社会所需要的信息化人才。ERP实验中心以其良好的实验环境和逼真的企业流程模拟
dsRNA技术是以无RNA病毒或类似病毒因子侵染的植物组织中不含有容易鉴定的同原大分子的dasRNA(>0.1×10^6)存在为前提。在植物体内dsRNA是RNA病毒和类病毒因子存在的迹象,dsRNA包括dsRNA病毒的基因或ssRNA病的复制中间型。
近几年来,关于非寄主专化性植物病原真菌纱(NHST)的致病机制研究有很大进展。本文就镰刀菌(Fusarium)毒素、麦根腐长蠕孢(Helminthosporium sativum)毒素、大丽花轮枝菌(Verticillium dahliae)毒素等多种非寄主专化性植物病原真菌毒素的致病
试验表明.在坡梁地生态类型区,不同耕作措施的产量以深耕最高.其次为免耕,浅耕最低,不同栽培措施如覆膜、秸秆覆盖和保水剂拌种+抗旱剂喷施均比对照具有明显的贮水、保墒和增产效果,其表现规律为覆膜优于秸秆,覆盖优于保水剂拌种+抗旱剂喷施;在滩地生态类型区,不同栽培措施以铺沙的贮水、保墒和增产效果最好,其次为秸秆覆盖处理和保水剂拌种+抗旱剂喷施处理,各措施亦均比对照显著增产.各处理可改善植物地上和地下的生
<正>2020年伊始,新冠肺炎疫情打乱了社会正常运行的节奏,混凝土行业为应急抢险、减灾救灾、重点工程的快速复苏、助力基建经济迅速走出困境,不负自己的产业使命,做出了突出的