基于高通量RNA-seq数据转录组拼接的算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:yu19910108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的生物技术快速发展,生物学大数据每天以爆炸式的速度增长,这无疑给生物学研究和发展带来前所未有的机遇,然而传统的生物学分析方法已经无法处理如此庞大的数据。生物信息学,作为一门新兴的交叉学科应运而生,它将数学,计算机科学,统计学等结合起来研究和解决大数据下的生物学问题。其中一个非常基础,重要而又极具挑战性的问题就是序列拼接问题,转录组拼接就是其典型代表。转录组拼接就是利用RNA-seq等测序技术产生的海量测序片段拼接出实验组织中所有的表达转录本,并估计出其表达量。本文的研究主要集中在如何利用组合优化方法来解决转录组拼接问题,这对于新物种研究,以及与异常转录相关的人类复杂疾病研究等相关问题意义重大。第二代RNA-seq测序技术的快发展和广泛应用给转录组拼接工作带来无限机遇的同时,也伴随着在计算上前所未有的挑战。目前的拼接算法根据计算策略可大致分为两类:1)基于参考基因组的转录组拼接算法;2)从头转录组拼接算法。当有高质量的参考基因组存在时,可先将测序片段回贴到参考基因组上,之后,根据回贴的结果对每个基因分别进行转录组拼接。在参考基因组不存在,不完整,严重片段化或是在癌组织中大量突变等,从头转录组拼接就成为了非常重要的且是唯一的选择。从头拼接策略不需要依赖任何参考信息,直接从测序片段本身出发,重构出最终的表达转录体序列。无论是转录组拼接的何种策略,目前的算法在计算精度和计算效率上都存在明显的缺陷和严重的不足,导致其实际应用效果非常差。因此,两种策略都亟待开发出全新的,高质量的拼接算法,以准确重构出真核生物组织中的全长转录组。基于上述的考虑,本文设计全新的基于参考基因组的转录组拼接算法TransComb,这个算法给转录组拼接提出了全新的设计思路,极大的弥补了当前算法存在的严重缺陷。经过在模拟数据和多组真实数据上的测试,结果充分地表明,无论在模拟数据还是真实数据上,本文开发的拼接算法与其他主流拼接算法比较都展示出明显的优势:不仅具有更高的灵敏度,而且具有更高的准确度,对其他算法普遍存在的假阳性高的难题得到了极大程度的解决。而且,在计算资源消耗方面,TransComb使用的CPU时间明显更短且运行内存更低。经过综合的测试表明,TransComb无论是在计算精度上还是在计算效率上都显著超过其他拼接算法。本文的新算法TransComb具有以下几个明显的的创新点:1)新的技术构造出更加准确的剪接图。本文设计出使用双端测序信息来修复片段化的外显子的技术,以及为修复错误连接的外显子而设计出的窗口滑动技术。2)梳图模型和双端测序信息解决转录组拼接的核心难题。转录组拼接的核心难题就是外显子两侧进出边连接的不确定性,这也是目前几乎所有的拼接软件共存的一大漏洞。本文开发的梳图模型将测序覆盖度信息和双端测序信息合理的整合在一起,巧妙的解决了拼接的核心难题。3)全新的图模型:加权节点图。打破基于RNA-seq的转录组拼接算法依赖传统重叠图和剪接图的现状,我们的算法是在加权节点图的基础上完成拼接,节点图中包含了更多有效信息,因而克服了现有算法的若干缺陷。4)基于节点图设计的新的路的延伸策略。该策略在延伸过程中每一步都有节点图上边的权重作为依据,使得每一条延伸出的路都以很大概率代表一个表达的转录体,无论该转录体是高表达还是低表达。尽管TransComb在拼接方面表现出了明显的优势,但是其仍然存在不足之处。比如:1)TransComb在设计过程中没有实现并行化,因此,在程序设计方面还有待进一步提升。2)表达量估计算法设计没有将测序偏好等信息考虑进去,因此,在某些数据上的表达量估计中TransComb与其他主流算法效果接近,没有表现出明显的优势,这个过程还有待于进一步提高。最后,本文还将简要介绍我们开发的另一个转录组拼接算法BinPacker,该算法是不依赖参考信息的从头拼接算法。BinPacker把转录组拼接问题重新模型化为追踪一系列物品的轨迹模型,每个物品代表一种转录体,物品的尺寸表示该转录体的覆盖度。这个方法能够巧妙地将覆盖度信息合理的利用在拼接过程中,另外,BinPacker具备如下两个独有的特征:1)只有剪接图中的可变剪接事件作为拼接过程的考虑对象;2)拼接大量杂乱无章的测序片段的过程被形象的模型化为梳理剪接图中的边的过程。最后,我们同时在模拟数据和真实数据上测试BinPacker,测试结果显示,BinPacker在各种数据类型下均明显超过几乎所有现存的从头拼接软件,包括最主流的软件Trinity,在某些数据下,BinPacker的表现甚至超过了基于参考基因组的拼接算法,如StringTie。而且,相比于其他的拼接软件,BinPacker消耗更少的运行时间和更低的内存。TransComb和BinPacker已经用C++语言实现成一个开源的软件,两个软件可以通过以下网址下载:http://sourceforge.net/projects/transcriptomeassembly/files/
其他文献
作为口译的一种重要形式,交替传译能够更加准确的将源语译成目的语,因此,它常常被运用在各种会议中。同时,交替传译也是同声传译训练过程中的阶段之一。它能为同声传译的训练打下
做为文学翻译中不可或缺的一部分,戏剧翻译具有其特殊性,即需要同时兼顾其舞台性和文学性。戏剧翻译长期存在的问题是其研究主要停留在语言转换的翻译模式上,而其审美特质未得到
With作为英语介词中很常用的一个,其多义性给中国学习者造成了很大的习得困难,但是长期以来,对with的研究为研究者所忽视。系统、详尽的介词语义分析并不多见,而对二语学习者如何
瑞典查尔莫斯大学研究人员能够用一种新的显微技术来:观察单个纳米粒子,而不是观察聚集在一起混杂不清的一团粒子。发表在《自然·材料》杂志上的成果显示,研究人员利用等离
湖北某大桥为目前国内主跨跨度最大的钢筋混凝土自锚式悬索桥之一,该桥主梁为单箱五室钢筋混凝土结构,采用移动支架法现浇。成桥后进行主缆挂设,索夹吊索安装,本文将主要介绍自锚
继2013年金升阳起草修订的行业标准《宽压输入稳压输出隔离型直流一直流模块电源》(NB/T42039—2014)获得了国家能源局的批准实施之后,2014年金升阳又起草修订了《定压输入非稳压
磷矿石开采成本上升,预计未来价格下跌空间不大。目前当地中小型企业平均吨成本(码头价)在390元左右,成本包括开采和运输,资源管理费(占1/3),开采权和固定资产折旧等,而税前价580元,毛利
为深入推进钒钛资源战略研究课题,8月19日下午,由干勇院士主持,在中国工程院组织召开了攀枝花钒钛资源综合利用战略研究钛化工产业专题研讨会。余永富、殷国茂、张懿院士出席会
近期,上海鹰峰电子科技有限公司针对华西地区客户精心策划的“携手共赢,创新未来——鹰峰2012走进企业技术交流会”成功举办。通过此次交流会,鹰峰与客户不仅交流和探讨了最新的
近日,第十二届中国国际现代化铁路技术装备展览会(以下简称"展会")在北京举行。莱姆电子(中国)有限公司如期亮相本届展会,展示了近年来针对铁路市场的创新技术和高质量的电量测量解