基于下一代测序的短序列匹配与支架算法研究

来源 :信阳师范学院 | 被引量 : 0次 | 上传用户:iceagebirdxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是综合电子信息学、统计学、计算机科学等多种学科手段对生物医学领域的相关数据进行分析和处理的一门新兴学科。随着基因测序技术的飞速发展,对测序数据的序列分析和处理是生物信息学的一个重要领域。由于现有的基于下一代测序的短序列匹配算法在处理重复序列方面表现较差,现有的支架算法在直接组装重复序列和非重复序列时容易出现错误,这就为短序列匹配算法以及基因组装支架算法提出了新的要求。针对下一代测序数据的特点,开发出能够满足实际科研所需要的短序列匹配算法和支架算法,已显得十分迫切。本文首先介绍了现有的以动态规划、点阵、Bowtie、BWA等算法为代表的短序列匹配算法和以SOAPdenovo、Bambus2、Opera、Velvet等算法为代表的支架算法,详细介绍了它们的基本原理和具体步骤。同时对当前主流的短序列匹配算法和支架算法的性能进行了比较,分析了它们处理重复片段的性能,分析结果表明,现有算法在处理重复方面的性能还有较大的改进空间。其次,本文提出了一种基于构建Hash索引和滑动匹配点的重复序列匹配新算法,命名为HashRepAligner。新算法是一个完整、准确的重复短序列匹配算法,它分为四步来完成:构建Hash索引、滑动匹配点、确定覆盖深度与边界检测。实验结果表明:HashRepAligner算法可以更完整地对齐重复序列,能够准确地计算出每个匹配上重复序列的拷贝数目,同时,算法能够精确地找到重复序列的开始和结束位置。最后,本文根据SWA算法并结合基于下一代测序的全基因组从头组装算法,提出了一种扩展重复序列与非重复序列的基因组支架算法并命名为HashRepScaffold。Hash RepScaffold能够独立地组装重复与非重复区域,算法首先进行数据预处理并构建Hash索引,再分别计算每个Contig的左端和右端与原始测序右端序列(br)和原始测序左端序列(bl)的映射关系,以确定每条Contig的左端和右端映射上br和bl的数目,最后利用这些映射关系及配对数据连接重复Contigs和非重复Contigs从而得到支架。实验结果表明,HashRepScaffold适用于测序片段大于240bp的间隙性重复序列,且较低的覆盖深度就能完整、准确地组装出Scaffolds,性能良好。
其他文献
含有兴奋性和抑制性突触可塑性的皮层神经网络,是大脑完成多种行为和功能的生理基础,研究两者对神经网络的共同调控作用,对理解大脑神经回路的发育和运行机制具有重要意义。脉冲时间依赖可塑性(Spike-timing-dependent plasticity,STDP)是一种神经系统中较为常见且有关键作用的突触可塑性,STDP可通过对突触连接权重的调节,改变神经网络的连接结构,进而调节神经电活动的状态。已有
目标检测是计算机视觉领域中一项基础但极具挑战性的任务。传统的目标检测方法包括区域选择、提取特征、分类回归三个操作。这其中存在的问题主要有:第一人工提取的特征鲁棒性不好;第二提取候选区域的方法效果并不理想而且时间复杂度很高;第三不能实现端到端的训练和测试。随着深度学习技术的发展,目标检测算法也从基于手工特征的传统算法过渡到基于深度神经网络的检测算法。在日常场景中人类与计算机对于目标的识别与检测可能有
蛋白质磷酸化是一种重要的蛋白质翻译后修饰,是生物体内一种最基本、最普遍也是最重要的调节方式。其在细胞新陈代谢,基因表达,细胞信号转导等生物过程中起着非常重要的作用
近年来,随着中国经济的蓬勃发展和国际地位的显著提高,中国正逐步从世界边缘走向舞台中央,全世界越来越多的新闻媒体、专家学者、国家政要将目光聚焦中国,这使得国内各大媒体对翻译的需求量不断扩大。本实践报告以笔者在第一财经日报实习期间翻译的三段录音材料为研究对象,从翻译任务描述、翻译过程描述、翻译案例分析、翻译实践总结依次展开,探究“理解、表达、取舍”框架对录音翻译的指导意义。其中,翻译任务描述主要介绍了
创新作为一种长期行为,既可在宏观层面促进社会持续进步,也可在微观层面帮助企业获得长期竞争优势。企业要获得长期生存与蓬勃发展,进行创新投资成为企业实现目标的重要途径
遥感图像变化检测是指通过监测地球表面同一场景、不同时相影像的变化信息以定性或者定量分析其变化的特征和过程。在近几十年,遥感技术发展迅速,遥感图像的变化检测已经被应
众所周知,群论与组合设计有着深刻的内在关系,主要通过设计的自同构群的旗传递性、点本原性和对称性等性质来体现.它们二者之间相互影响,共同促进发展,通过研究设计的自同构
伴随全球工业化进程,化石燃料已成为全球能源结构中最主要的组成部分,其燃烧所产生的二氧化硫气体及伴随产生的酸雨对生态环境和人类健康产生巨大危害,因此对工业烟气进行脱硫处理至关重要。膜吸收法海水烟气脱硫技术集合了海水烟气脱硫与膜吸收技术的诸多特点,与传统塔设备相比具有气液相单独控制、无液泛、雾沫夹带、接触面积大、设备结构紧凑等优势。与其他膜吸收过程类似,过程传质效率和集成化的提升是其研究与应用的重要方
草酸二甲酯(DMO)作为重要的化工和医药原材料,主要应用于制药、农药和有机合成等领域,如可用来合成维生素B13,加氢制备乙醇、乙二醇和乙醇酸甲酯等物质,以及代替草酸二乙酯合成磺胺甲噁唑等。随着经济发展,国内市场对草酸二甲酯的需求日益增大,吸引不少学者对其合成方法进行研究。目前草酸二甲酯的合成方法可以分为间歇操作的浓硫酸催化酯化法、CO气相偶联法和CO液相偶联法,但以上方法存在腐蚀反应设备,成本高,
目前,作为国际测绘领域高新技术的倾斜摄影测量,以大范围、高精度和高清晰的形式全面真实的反映地物场景,通过高效的无人机数据采集设备和自动化建模软件处理得到的倾斜摄影数据成果更能直观反映地物的外观、位置等信息,同时,也降低了测绘数据获取的人力、财力和时间成本。但是,由于倾斜摄影数据自动化建模机制的原因,即首先对控制点进行空中三角测量处理得到稠密的点云数据,经过点云抽稀构建三角格网,最后对三角格网贴纹理