基于二代RNA-seq数据的转录组组装算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:archer007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的迅猛发展,生物信息数据资源呈现出爆炸式增长的趋势,同时计算机技术与互联网技术日益提高,使得我们对于大数据的储存、处理及传输更为便捷,对于生物大数据的整合与数据挖掘成为生命科学研究中的重要组成部分。基于计算机科学、数学与生物学的一门新兴交叉学科--生物信息学应时而生,其中对于转录组学的研究就是生物信息学中一个十分重要的基础性问题。近年来第二代RNA-seq技术依赖于其通量高、成本低的优势逐渐成为了研究转录组及其表达水平的主要手段。随着各种测序技术的发展,大量数据的产生,利用测序技术研究基因的转录组成为一个必然的趋势。二代的RNA-seq 测序数据的序列长度很短,必须经过有效组装才能恢复出全长转录本的序列,这就是本文所研究的转录组组装问题,而真核生物的转录过程中,由于可变剪接现象的存在,同一个基因可以产生多个不同的转录本,而可变剪接的模式也呈现出多样化,这无疑使转录组组装问题充满了挑战性。本文的研究主要是利用图论中的理论将转录组组装问题模型化,并利用组合优化技术解决组装过程中的难点与瓶颈。转录组组装算法大体分为两类,一类是基于参考基因组的组装算法,另一类是从头组装算法。对有些物种而言,其基因组是已知的,此时我们可以先将测序序列回贴到基因组上,根据回贴结果,确定每个基因的外显子区域及可变剪接事件,进而设计数学模型完成组装,这种策略由于存在参考信息,其组装效果往往相对较好;然而事实上,大多数物种并不存在一个完整的基因组可供参考,这时我们需要直接从测序序列出发而不基于任何参考信息来完成组装,这就是从头组装策略。两种策略各有利弊,且又互不可替代,基于两种策略均已有很多组装算法,通过在模拟数据及真实数据上的测试我们发现其组装效果并不理想,高性能的组装算法亟待开发。本文综合分析了目前组装算法的优缺点,提出来一种全新的基于参考基因组的组装算法iPAC,有效地解决了组装问题中的瓶颈,弥补了当前算法的缺陷。我们在多组模拟数据及真实数据上测试了 iPAC的表现,并与其他主流的组装算法做了全面的比较,结果充分的表明:在所有的测试数据上本文开发的组装算法iPAC可以在各方面都展现出显著的优势,iPAC的组装结果保持了高敏感度与高准确度,大大降低了假阳性转录本的存在,同时在重构低表达转录本的能力上也明显超越了其他算法。本文所提出的组装算法iPAC有以下几个创新之处:(1)引进了双端测序信息的重叠图模型,iPAC首先将双端测序序列定位成可以代表基因的剪接图中的一条双端子路,根据这些双端子路间的兼容关系,构造了重叠图,并在重叠图中设计了一种合理的路的延伸策略,得到了更长的子路,充分地利用到了每一对双端测序序列来解决可变剪接的连接问题;(2)构造了全新的相位图模型,iPAC利用测序深度信息与双端测序信息,使用梳图技术,即通过解决一系列的二次规划问题,将剪接图中每个点的入边与出边确定合理的连接关系,并结合在重叠图中获取的延伸的双端子路,构造了相位图,充分的将双端测序信息与测序深度信息整合在一起,解决了外显子两端剪接事件连接不确定这一核心难题;(3)在相位图中设计了全新的路的延伸策略,在构造完相位图后,iPAC会优先选择延伸的双端子路做为种子,在相位图中沿着梳图的方向往两侧延伸,延伸后将当前相位图中的权重做出更新,继续进行下一次的延伸,直到所有的剪接事件都被覆盖到,这使得iPAC以更高的概率获取到正确的转录本,对于各种表达水平的转录本的重构都有着明显的优势。iPAC在组装性能上有着优异的表现,不过其也存在一些不足之处。第一,从计算机技术层面上讲,iPAC的代码没有实现并行化,因此其计算效率还有提升的空间,实现并行对于计算效率的提高有着十分重要的意义,这也是我们以后努力的一个方向;第二iPAC组装完成后是使用其他工具对组装结果进行表达量的估计,这也是十分重要的一个课题,今后我们会设计自已的表达量估计模块。本文还介绍了我们开发的一个从头组装算法TransLiG,从我们的测试来看,与目前主流的从头组装算法相比,TransLiG在敏感度与准确度方面都有着十分明显的优势。同时重构低表达转录本的能力也优于其他算法,TransliG算法具有以下创新之处:(1)使用相对较大的kmer构造剪接图,然后使用小kmer对剪接图进行修正,大kmer构造剪接图可以有效的减少图中错误的连接关系,同时使用小kmer进行修正,又减少了序列的片段化问题,最终的剪接图更加可靠;(2)在解决外显子两端可变剪接事件连接不确定的问题上,引进了全新的二次规划模型,将测序深度与双端测序信息巧妙的整合到一起;(3)使用线图迭代技术得到全局最优解,TransLiG从原始的剪接图出发构造线图,并通过解决一系列的二次规划问题为线图赋权重,根据赋权结果又可进行下一次的迭代,在迭代过程中,会产生一系列的孤立点,回溯到剪接图中,这些点就是一个路覆盖,即我们组装出来的转录本。iPAC与TransLiG均为开源软件,由C++语言实现,两个软件的下载地址分别为:iPAC:http://sourceforge.net/proiects/transassembly/filesTransLiG:https:/sourceforge.net/proiects/transcriptomeassembly/files/
其他文献
编者按:2003年2月至2007年3月,时任浙江省委书记、省人大常委会主任的习近平同志,曾在浙江日报“之江新语”专栏发表短论二百三十二篇。这些短论思想性、针对性、时效性强,语言简洁明快,观点敏锐清晰,形式生动活泼,讲道理浅显易懂,不空发议论,文风朴实,或赞美表彰,弘扬正气;或批评鞭挞,斥责歪风;或分析道理,揭示规律。2007年5月6日,浙江日报社经再三征求习近平同志的意见,并在征得习近平同志同意后
编者按$$颠覆,是海尔“人单合一”模式之所以受到全球管理学界关注的原因。海尔从筒仓到创业平台,颠覆了科层制,海尔打破了企业的边界,重新定义了边际成本,变革了线性管理,以自驱动
报纸
目的探讨碳酸锂在合并131碘(^131Ⅰ)治疗Graves病中的价值。方法将322例Graves病患者随机分为两组,A组(研究组)165例,采用mI联合碳酸锂治疗,B组(对照组)157例,单独使用^131Ⅰ治疗。分别
“2013·当代贵州改革发展十大亮点”于3月6旧正式对外发布。本次“十大亮点”征集活动由中共贵州省委机关刊熬当,代贵州》杂志、当代先锋网发起,采访征集了全省九市州和贵
本文提出并研究了轻稀土P507-HCl体系La/Ce分离过程中的线萃镧除钙工艺,对工艺的实施方法,流程控制及分离效果进行了阐述。结果表明:该工艺可节约设备投资,用在线萃取法进行Ca/La分离。本工艺同样适
“公仆”概念起源于何时.它的本意是什么?从马克思主义发展史来看,“公仆”这个概念是马克思在1871年提出来的、,1871年3月18日,法国巴黎无产阶级举行武装起义,并取得了胜利,
“一边学习,一边工作,每个月还能全5113500元的工资。”说起顶岗实习的经历,杜升桦不禁喜形于色。2012年,杜升桦有5个月时间在华硕集团参加顶岗实习,月均3500元的收入让她看到了自
新老普通混凝土(NC)粘结广泛存在于建筑结构当中,如结构加固、装配式结构等。但是由于新老普通混凝土的粘结效果不好给结构带来了诸多不利的影响,严重影响了结构的强度、刚度
今天,我们班来了一位新老师。  林桦自看到他后,就激动地说个不停:“哎,快看快看,他真年轻,真帅!”  “没觉得,”我瞥一眼讲台,撇撇嘴,“你最近的审美水准真是严重下降啊。”  正说着,台上那人拿起粉笔,在黑板上潇洒地写下他的名字——骆以灵。  听着林桦感叹“字写得真好看”,我忍不住摇摇头:这个世界没救了。  [1]我叫骆以桐。没错,这个名字和新老师的名字很相似。这不是巧合,因为我们是有十来岁年龄
运用数值计算方法对方孔的菲涅耳衍射进行分析和仿真,基于菲涅耳衍射积分和子波的相干叠加法,设计了一种针对方孔菲涅耳衍射的数值算法,并给出了相应的MATLAB程序以及仿真结果.从