基因组序列de novo拼接系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lie_luren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组序列拼接是生物信息学的核心问题之一,目的是将当前测序技术测出的较短的DNA序列拼接成完整的DNA片段。耗费十年时间的“人类基因组计划”就是使用第一代测序技术测出了第一个人类全基因组草图。近些年来,随着测序技术的不断革新,第二代测序技术应运而生,它们不仅有测序速度快、通量高(测序数据量)、成本低等优点,而且有产生的read(测序产生的基因片段)长度短,错误率高等缺点。对此本文设计了一种基于马尔科夫模型的基因组序列de novo(从头测序)并行拼接系统,能有效的针对新一代测序数据进行拼接组装。本文通过分析DNA序列的特性,提出了基于马尔可夫模型的基因组序列拼接系统GSnake。系统首先使用马尔可夫模型通过海量短read测序数据来学习基因组中DNA序列的碱基分布特性,模型中的状态转移概率矩阵通过对测序数据的统计来获得,其中,一段固定长度的碱基序列被抽象为模型中的一个状态。在此基础上,本文提出了de novo拼接及优化方法。通过初始概率分布选择合适的初始状态,然后通过状态转移概率矩阵来不断得到合适的当前状态,从而不断的生成多条较长的碱基序列。同时由于新一代测序数据的错误率高并且基因组中存在大量的重复片段,为保证拼接结果的精度及拼接长度,本文在选择最优的当前状态时提出了一系列启发式算法来优化拼接过程,从而能够获得最佳的拼接效果。最后,本文将系统结果与SOAPdenovo、Velvet软件进行比较,并且使用了GAGE评测程序来进行综合评测。结果表明GSnake系统的拼接长度较长、覆盖度较好且准确率高,能够得到令人满意的结果。
其他文献
故障现象:联想V460/B460/G460/Z460等笔记本机型在安装Windows7系统或者Windows XP系统摄像头驱动时,有时选择“CmDrvLdr.exe”应用程序无法响应,而在官网驱动中集合有六种型号驱动,无法确认该安装哪个型号驱动。  解决办法:用户遇到该问题时,可以根据笔记本摄像头硬件ID号来确认具体要安装哪个驱动。进入设备管理器界面后,用鼠标右键点击摄像头项,点选弹出菜单中的“
目的:使用原代培养的大鼠骨骼肌细胞作为研究对象,用棕榈酸处理并给予亮氨酸干预,观察亮氨酸干预对棕榈酸处理的骨骼肌细胞线粒体功能的影响及其机制,为2型糖尿病的防治提供
通过万能的后期处理,这些照片还是有救,不过在以往的Photoshop版本中,局部调整图像的明暗往往意味着复杂和繁琐,往往要蒙版和阴影/高光命令配合使用,以便达到降低亮部过曝的几率、
本文以奥托公司白车身焊装生产线项目中自动焊枪交流为案例,以项目管理进度计划及控制,风险项等相关理论为基础。通过对生产线中自动焊枪交流模块为研究,结合其工作本身的特