基于Spark的CRISPR系统脱靶位点预测算法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhanggexian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因编辑技术在基因功能研究、物种性状改良和疾病研究中具有非常重要的作用,成为当下的研究热点。CRISPR系统是目前最具发展潜力的基因编辑工具,但由于其存在脱靶效应,可能会导致不确定位置的DNA片段遭到破坏。提前对全基因组范围内存在的脱靶位点进行预测来实现风险规避,对安全有效的CRISPR系统的设计与应用具有非常重要的指导意义。目前已有的CRISPR系统脱靶位点预测算法的运行效率都不是很高,在全基因组范围对脱靶位点进行预测十分耗时。本文提出了一种新的脱靶位点预测算法Spark-OFFinder,该算法将FM-index算法应用到了脱靶位点预测当中,通过使用Spark分布式计算框架,使之能在Spark集群当中并发运行。本文对参考基因组序列生成FM-index索引文件,并对索引文件的内容进行压缩处理,使其能够完全加载到内存当中,提升读取效率。Spark-OFFinder设计了一种基于FM-index算法的部分模糊匹配算法,能在参考基因组序列中搜索CRISPR系统的脱靶位点,并通过一定的优化措施来缩小搜索空间,以提升算法的运行效率。本文还使用MapReduce编程模型将该算法并行化处理,并基于Spark分布式计算框架实现该并行算法,使其能在Spark集群当中分布式运行,进一步提升运行效率。最后,本文将Spark-OFFinder与目前应用广泛的脱靶位点预测工具Cas-OFFinder进行对比,Spark-OFFinder的运行结果完全正确。在单机环境下,Spark-OFFinder的运行速度相较于Cas-OFFinder有很大的提升。在集群环境中,本文使用控制变量法测试了两者受参考基因组序列长度、sgRNA序列数量和最大允许错配数的影响。测试结果表明,在本文测试所使用的集群环境中,Spark-OFFinder在不同输入条件下的运行速度较Cas-OFFinder均能有非常大的提升,在某些输入条件下能达到百倍甚至千倍的提升。此外,Spark-OFFinder在参考基因组序列长度较长、sgRNA序列数量多以及最大允许错配数较小时更能发挥其运行速度上的优势。并且该算法具有比较好的拓展性,能随集群规模的扩大稳步提升运行速度。
其他文献
针对中压大功率交流电机软启动器的工作特点,对装置主电路及保护参数、高压脉冲电源、脉冲触发力式及软启动软停机控制中的一些问题进行了分析讨论,提出合理实施意见.
众所周知,学校班级的管理工作是一件很琐碎和复杂的事情,而小学管理工作中的问题就更加的多了。虽然小学生的自主意识还不是很强。比较容易接受班主任的管理,但这也意味着他们的
素质教育理念下,“减负增效”的教学方式受到愈来愈多教师的追捧,成了现代教育中比较重要的教学方式之一。关于如何实现教学的减量不减质,是教师在一直思考的问题。小学时期是学
随着互联网的飞速发展,网络的方便性、快捷性、互动性及隐秘性日渐凸显。利用网络的优势,建立班级QQ群,能方便有效的管理学生。
在低伸弹道测量中,为了对弹丸的飞行资态,章动角,章动周期,弹丸飞行速度和旋转速度等进行精确,可靠的测量,需要对所采用的狭逢联动摄影系统进行精密的标定。本文在比较以往所用方法
为了研究山羊卵巢中是否存在弥散性神经内分泌系统(DNES)细胞及其分布情况,采用了敏感性较高的免疫组化链霉素抗生物素蛋白-过氧化物酶法、超微结构观察及计算机图象分析等方
为应对2010年底多次发生HXD3型电力机车复合冷却器通风机组电机轴承进水锈蚀异音故障,通过对该故障现象的观察和解体轴承的检查,找出其产生故障的原因,提出了解决措施及建议,通过
介绍摆式列车倾摆控制系统神经网络预测控制的原理及模型,分析了神经网络控制算法,列出了控制器设计的算式,探讨了预测控制系统对实测信号的预测时间为0.2 s、0.68 s的预测参
近几年,随着网络综艺节目的形式不断创新,内容逐步专业化,网络综艺节目对于主持人的职能设置和能力要求也随之出现了变化。如今“跨界主持”现象已然成为主流,成为了行业内外备受关注的焦点。网络综艺“跨界主持”现象的出现,最早是起始于2012年的,距离现在已经七年时间。短短7年内,网络综艺节目“跨界主持”现象从开始萌芽到成为主流趋势,发展十分快速。之所以会出现网络综艺节目“跨界主持”现象是由外界环境和内在因
针对交流传动电力机车大量投入运用引起电网产生高次谐波,对直流电力机车带来干扰和部件烧损的问题,分析认为直流电力机车初始设计的绝缘件本身绝缘能力差,现在已不能适应电