高通量测序数据集的短读序列比对算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:boge09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展以及测序成本的下降,测序得到的短读序列规模越来越大,将大量的短读序列快速且准确地比对到参考基因组序列是一个具有挑战性的问题。针对基于哈希索引的短读序列比对算法运行内存较大、精确度较低的问题,本文提出了短读序列比对算法SSFA。设计了一种轻量化的哈希索引结构,比传统的基于哈希索引的比对算法占用更少的内存空间;设计了种子分组算法以及过滤算法,提升了比对的精确度和速度,其中过滤算法包括种子选择以及候选位置过滤,具体工作如下:轻量化的哈希索引结构。传统的基于哈希索引的短读序列比对算法在构建索引时,需要将参考基因组序列每个位置生成的定长子序列以及当前的位置信息存储到哈希索引中,导致了哈希索引占用较多的内存空间。为了解决这个问题,SSFA建立了轻量化的哈希索引结构,每隔固定的步长step,存储参考基因组序列上当前位置对应的定长子序列以及当前的位置信息。在构建的轻量化哈希索引结构中,使用键值表编码存储定长子序列,位置表存储子序列对应的位置信息。种子分组和过滤算法。为了处理轻量化的哈希索引缺失部分参考基因组序列位置信息的问题,在短读比对的过程中,本文提出了种子分组和过滤算法。首先,利用种子分组算法将短读序列生成的所有种子根据其在短读序列中的位置分为step个种子集合。然后,利用过滤算法对每个种子集合进行过滤得到短读序列所对应的候选位置。在过滤过程中,设计了基于动态规划的种子选择算法,从每个种子集合中选出d+a+1(d为汉明距离,a为额外非重叠种子的数量)个最优的非重叠种子,保证这d+a+1个非重叠的种子组合在参考基因组序列上出现频次之和最小,并通过设计的候选位置过滤算法筛掉d+a+1个种子出现在参考基因组序列上的冗余位置,将剩余的位置作为种子集合所对应的候选位置。最后,合并所有种子集合所对应的候选位置,并对合并后的所有候选位置使用Smith–Waterman算法进行比对,选出最恰当的位置作为结果输出。在NCBI上下载的真实数据集以及模拟数据集上测试了SSFA的召回率,准确率,敏感度,运行时间以及内存占用。实验结果表明,SSFA在准确率及敏感度上与主流算法相比上具有一定的优势,在召回率和运行时间上与主流算法相当,运行内存的消耗较其他基于哈希索引的比对算法减少了15%~24%。
其他文献
目的探讨大黄调酒敷神阙、双侧天枢穴治疗腰椎压缩性骨折的疗效。方法将61例腰椎压缩性骨折排便困难的患者.按入院顺序随机分为两组。对照组30例使用常规方法治疗,治疗组31例在
探讨序列整体护理在吡柔比星鞘膜内注射治疗原发性三叉神经痛过程中的作用。总结288例原发性三叉神经痛患者住院期间的序列整体护理.通过健康教育和指导使患者正确面对疾病,解
随着我国经济的发展,对能源与矿产资源需求量越来越大。而以煤矿、铁矿为代表的矿产储量趋于枯竭,开采深度不断加深,矿产开采难度不断加大。目前,矿山企业的生产环境特殊,信
在江苏东台,厨师过去被称为厨子,虽说社会地位不高,但在东台厨子却是“二难”之一,所谓“二难”,就是“秀才”和“厨子”,因为这两项职业都要经过艰辛努力才能功成名就。书读好了可能成秀才,进而入仕奉官;厨艺精了可能成为厨子,亦能过殷实日子。对于穷苦人家而言,拜师学厨是更为现实的职业选择,不过学厨子却比较艰苦,因而在过去老东台,做厨子的不是家中传承就是贫苦出身的。  过去,大户人家、官宦之家培养孩子读书,
麻黄是传统的中草药,经济效益可观。近几年采由于追求高效益,对野生麻黄资毋不舍理开采,致使资源日浙枯竭。因此,不论从生态上.还是经济效益上,人工栽培麻黄对农业产业结构的调整
目的:探讨美国食品药品监督管理局(Food and Drug Administration,FDA)对医疗器械境外临床研究的监管要求,为我国相关从业人员提供参考和借鉴。方法:通过介绍美国法规中针对