面向基因组重测序的BWT索引压缩算法

被引量 : 0次 | 上传用户:steve0309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代高通量测序技术的出现,DNA测序技术已成为研究生命科学领域的重要手段,而新一代测序技术产生的读取数据长度较短,并且数据通量非常巨大,这给生物信息学带来了新的机遇和挑战。其中对于这些数据的分析算法的研究面临着巨大的挑战,特别是序列比对算法和数据存储算法。目前,随着新一代测序技术的不断普及,基因组重测序的序列比对程序(如MAQ、mrFast、SOAP等)越来越多,而且它们采用的结构也不断完善,性能上越来越好。这其中包括哈希表,后缀数组,后缀树等结构,而最近几年出现了使用压缩模型Burrows-Wheeler变换。由于其空间占有量非常小,而且在查找匹配方面能够实现块搜索,从而大大提高了拼接算法的时间和空间利用率。这使得全基因组序列比对软件在个人计算机上运行成为了可能,并给非专业研究人员带来了研究生物学众多问题的机遇。本文面向新一代测序数据,在人类全基因组上利用BWT变换,在保证整个reads映射过程的拼接速度不变的情况下,提出了BWT索引压缩方法,构建了一个新的BWT索引结构。利用该结构构建一个reads映射系统,该系统实现了reads数据快速映射到人类参考基因组序列上。其中通过构建检查点结构信息来快速查找映射对应关系,通过构建位置信息来快速返回读取数据的拼接位点。由于BWT后缀序列在BWT索引中占据大量空间,而对于BWT后缀序列的压缩存储直接影响了整个reads映射过程的拼接速度。考虑到BWT后缀序列结构中碱基分布不均匀,碱基序列重复度比较高,为了提高整个reads映射过程的内存利用率,设计并实现了几种后缀序列压缩算法。利用这些压缩算法,特别是BWT再变换,使得碱基序列集中在一起,从而提高了整个索引结构的压缩比率。最后,通过采用reads的模拟数据和真实数据,对于这些索引压缩算法进行测试分析。结果发现整个映射过程的拼接速度基本没有改变,而索引结构空间大大减小到850MB左右。虽然压缩算法的压缩比率不是很高,但是对于索引结构的压缩还是非常有必要的。
其他文献
目的探讨奥沙利铂联合氟尿嘧啶(5-Fu)/甲酰四氢叶酸治疗结直肠癌致不良反应的规律和原因,为临床合理用药提供参考。方法对2007年~2012年青海大学附属医院63例采用奥沙利铂联合
城乡统筹不仅是当前中国新农村建设的重大课题。随着城乡统筹的推进,城乡统筹发展下的地方政府职能转变问题也引起社会各界的广泛关注。从政府职能的内涵,政府职能基本内容的
我国的保健食品行业经过三十多年的发展已经具有一定的规模,当前保健食品行业仍然存在诸多问题,为此,通过探析问题存在的原因,提出建立健全的淘汰和创新机制、加快完善和出台
<正> 防车撞 车子行驶在路上最怕后面的车撞上自己。在美国汽车文化中这方面的内容最多。“千万别吻我,那很可怕。”“不要让我们因相撞而相识。”“公路上不玩碰碰车游戏。
期刊
作为现代农业的三大支柱之一,农业保险对防范农业风险、促进农业生产,稳定农民收入具有重要作用。但我国农业保险发展却处于逐步萎缩的状态,其中重要的原因之一就是政府补贴
在阐述高速公路交通事故的严重性及事故发生后紧急救援必要性的前提下,对国内外高速公路紧急救援现状进行了分析研究,指出我国目前在高速公路紧急救援方面的不足,并提出了改
随着资本市场的进一步发展,投资者根据公司的披露的会计信息做出投资决策,公司所发布的会计信息受到越来越多的关注。会计信息披露制度是资本市场正常运作的基本条件之一,注
<正>近年来,随着各粤剧院团重头戏的相互较劲,各种大型粤剧活动的此起彼消,粤剧形势似乎有了点生机,但毕竟粤剧已积弱多年,距离兴盛仍然任重道远。不过有一点是可以肯定和令
澳门友谊大桥钻孔灌注桩施工中 ,当桩孔深达 6 0m时 ,钻孔桩泵吸清渣无法进行 ,采用气举反循环清渣施工工艺 ,有效地解决了深桩的清渣问题。
随着"微时代"的到来,微视频作为教学资源以开放共享的方式服务于教学工作,促进教学方式的变革。本文结合汕头职业技术学院"微电影"公选课教学实践的开展,从微视频的概念和特