基于数据融合的转录组组装算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:jsdfyxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生命科学和相关测序技术的蓬勃发展,生物数据呈指数增长之势。生物学的进步也越来越依赖于相关数据的收集、储存、检索、分析与挖掘。一个新兴的交叉学科--生物信息学应运而生,并迅速成为当今自然科学的前沿与核心领域之一。生物信息学从数据入手,以数学、计算机科学、统计学和控制学等为手段,深度挖掘生物数据中所蕴含的各类信息,以揭示生命的奥秘。转录组学属于生物信息学的关键分支,是在RNA水平上探究细胞中基因转录情况的学科,旨在了解信使RNA剪接程度以及非编码RNA和增强子RNA对基因表达的调控作用等一系列科学问题。转录组组装算法是转录组学开展后续分析的前提,为转录组调控规律、基因差异分析、共表达分析、富集分析等下游研究提供支持,起到了基础性的铺垫作用。目前主要的转录组组装算法通常可分为两种策略:从头组装(de novo)和基于参考基因组序列的组装(genome guide)。近几年,研究人员开发出大量的组装算法,极大地促进了转录组学的发展。但我们通过测试发现,目前的算法仍有很大的局限性,主流算法的召回率与准确率仍然较低。随着测序技术的进步,各种序列比对以及组装算法的不断开发,我们可利用的数据信息也越来越多。充分融合已知信息并开发准确高效的转录组组装算法依然是十分有意义且充满挑战的研究课题,这也是本论文的主要研究工作。目前,转录组组装时面临的具体问题主要有:1)如何更充分地利用已知的信息构造更加精确的可以代表基因表达的剪接图;2)如何更准确地解决外显子两端可变剪接事件连接的不确定性这一核心问题。此外,几乎所有转录组学研究都涉及多个样本的RNA测序。为了下游的量化以及差异表达分析,往往需要对于多样本的RNA测序数据创建一个一致的转录本集合,即基于多样本RNA-seq数据的转录本重构问题。对于多样本的转录组组装,如何将多个样本的信息融合到同一个剪接图中同时又能体现出每个独立样本的特有信息,也是一个迫切需要解决的问题。针对以上问题,本论文充分研究了现有算法的缺陷,并深入剖析了目前可以利用的有效信息,利用图论、组合优化等相关知识,从1)融合不同序列比对工具的回帖结果并引入标签剪接图模型,2)整合多个不同样本信息并引入向量加权剪接图模型,这两个不同角度分别设计了转录组重构的组装算法Tiglon和TransMeta。这两个算法均提出了全新的图模型,并分别设计了不同的组装算法,能有效地解决重构全长转录本的难题,一定程度上克服了现有算法的不足与缺陷。相关研究基于第二代测序技术(高通量测序技术)开展,成果主要包括:1.Tiglon算法:基于参考基因组的组装策略,其第一步就是RNA-Seq测序数据的回帖,而回帖需要借助序列比对工具,单一序列比对工具由于其不同的设计方法有着很强的数据偏好性。我们研究发现,基于单一的序列回帖工具往往无法捕捉到一个基因里所有的可变剪接事件,这直接影响到后续的拼接结果。针对上述问题,为了充分利用不同的序列回帖工具产生的回帖信息,我们开发了基于序列比对工具融合的Tiglon算法,主要创新之处在于:1)首次提出融合多个序列比对工具的结果作为输入,这样可以减弱单个工具的数据偏好性,使得输入信息更为准确。2)首次提出了一个新的图模型,称为标签剪接图(Labeled Splicing Graph)。标签剪接图在每条边的权重上都加入一个标签,通过这些标签可以明确知道支持该边的读段具体可以被几个序列比对工具识别,有效区分信息来源,以便捕获到更多正确的剪接位点。3)设计了基于标签的动态路径搜索算法,利用标签剪接图所特有的标签权重进行分析,根据读段被多少个序列比对工具所识别等信息计算可信度,并以此为依据有选择地在图上进行延伸,寻找代表转录本的路径。本文在一组模拟数据集和50组真实数据集上,从正确重构的转录本数量、准确率、F-Score等多个维度评估了 Tiglon与其他常用工具的性能(其中包括StringTie2和Scallop在内的目前世界上最先进的转录组组装算法)。结果表明,Tiglon提出的针对不同序列比对工具的融合策略在性能上比其他组装工具均有着很大的提高。尤其是,Tiglon在重构低表达转录本方面有着显著的提升(这是转录组组装中比较困难的问题,也是考察算法是否优秀的重要指标之一)。2.TransMeta算法:针对多样本转录组组装问题,本文开发了基于多样本数据融合的TransMeta算法,其主要创新之处包括:1)首次提出了矢量加权剪接图(Vector Weighted Splicing Graph,简称VWSG)的概念,这与之前算法常用的赋权方法大有不同。VWSG使用矢量对剪接中的边和节点加权,矢量第k位的元素是在样本k中对应的权重。这样可以将每个样本的测序信息完整保留,同时避免了信息缺失,达到求同存异的效果。2)首次利用余弦相似度去梳理加权边或节点间的关系,利用相临边矢量权的夹角而非范数大小去计算相似度以解决外显子两端的可变剪接事件连接不确定性这一核心问题。即只关注同一读段在不同样本中信息的相似性,这样做更符合多样本数据的特性,有利于更准确得进行路径延伸。3)利用新设计的依据标签的路径搜索算法来重构转录组。TransMeta会通过一个转录本选择算法来生成全样本转录组,并基于此修正单个样本的数据错误,针对每个样本输出特定的转录本集合。本文分别选取了包含了 25个样本的模拟数据,包含不同样本数量的5组人类大样本RNA-Seq数据集(其中包括189个样本数据)以及两组小样本数据集(其中包括9个样本数据集),从召回率、准确率、准确率--召回率曲线、F-Score等多个评价标准对TransMeta进行了大量的测试,并与目前最出色的工具作了对比。在多样本组装水平上,TransMeta在多个覆盖度阈值下实现了最佳的准确率-召回率曲线,超过了包括PsiCLASS在内的目前最好的多样本组装算法。同时,TransMeta在单个样本组装水平上也一致地取得了最优的结果。Tiglon与TransMeta均通过C++语言实现且为开源软件,下载地址分别为:Tiglon:https://github.com/yutingsdu/Tiglon-v.1.1.gitTransMeta:https://sourceforee.net/proiects/transassembly/files/TransMeta/
其他文献
本文主要研究图的点染色和全染色问题,确切地说,是探究平面图的可松弛性和不含K5子式图的全染色。图G的k-全染色是指用k种颜色对V(G)∪E(G)中的每个元素染色使得任意两个有邻接或关联关系的元素染不同的颜色。而G的全色数χ"(G)则被定义为最小的正整数k使得G有一个k-全染色。Behzad和Vizing独立地提出了著名的全染色猜想:对任意最大度为Δ的图G,都有Δ+1≤χ"(G)≤ Δ+2。下界显然
学位
2007年至2009年的全球金融危机体现了世界金融体系的错综复杂性和巨大的系统性风险,也使得奈特不确定性再度引起了学者的关注。彭实戈院士于2006年所创立的非线性期望理论是处理金融中带有奈特不确定性问题的一个强有力的工具。与Kolmogorov所建立的以线性概率测度为基础的现代概率论公理体系不同,该理论是以非线性期望为出发点,系统建立起的一套全新理论体系,并且该新理论处处都直接对应着概率模型本身的
学位
宽带隙材料具有独特的物理化学性质,在功率电子器件、光学透镜、微波功率器件、机电耦合系统等领域具有广泛应用前景,是开发新一代国防军事、电子通讯、量子技术、医疗健康技术不可或缺的重要材料。宽禁带材料与传统的金属和窄带隙半导体材料(如:硅材料及大部分二维半导体材料)比较,其表面也往往缺乏足够的自由载流子,表现出很大程度的化学惰性,这给利用传统技术手段进行材料表面的加工、改性及结构制作带来了一定的困难,严
学位
MXene是一类性能优异,家族庞大的新型二维晶体材料,因其独特的二维层状结构,以及不同终端官能团展现出的可调谐的性质,引起研究者的广泛关注,在储能、传感、催化等领域具有良好的应用前景。随着研究的深入,MXene面临的问题便凸显出来。目前,MXene的主要合成方法为酸性含氟试剂刻蚀法,导致MXene表面含有大量的F终端基团,终端官能团比较单一,限制了性能的多样性;F终端MXene的稳定性差,极易被氧
学位
聚合算子(也称聚合函数)是用来模拟信息融合的数学模型.近几十年来,随着计算机科学的发展,信息聚合的研究已成为热门研究领域,也是人工智能领域的关键问题之一.目前,聚合算子理论已经广泛应用于模糊逻辑、近似推理、决策、模式识别、图像处理等领域.为了满足不同领域的应用需求,研究学者构造了许多种类型的聚合算子.按其行为、功能的不同,将聚合算子分为四类:合取型聚合算子(以三角模为代表)、析取型聚合算子(以三角
学位
本篇论文主要研究了带延迟的随机最优控制问题和随机斯塔克尔伯格微分博弈问题。我们建立了一般最大值原理、最大值原理与动态规划原理之间的关系、验证定理,得到了反馈控制、开环策略,讨论了闭环可解性。我们还将这些理论结果应用于实际问题,如最优投资问题、生产消费问题、资源分配问题等。经济金融、航空航天、网络通信等领域的许多问题都可以转化为最优控制问题,然而,现实世界中某些现象的发展不仅仅依赖于当前时刻的状态,
学位
图的点划分问题是图论研究中非常重要的研究课题。图的点划分问题是指把图的顶点集划分成一些互不相交的点子集的并,使得划分之后的子集或者子集之间满足某些条件。图的点染色问题可以看成是把图的顶点集划分成一定数目的独立集的不交并。Erd?s-Lovász Tihany猜想研究的是对于满足一定条件的图,可以把它的顶点集划分成两个不交的子集,使得这两个子集的导出子图的点色数足够大。本论文首先对图的列表分离染色进
学位
对称性是构成现代物理的核心概念,晶体材料反演中心破缺往往使材料具有极性。铁电晶体材料不具有中心对称性,材料表现为自发极化,表现出铁电、压电、热释电、电光等一系列重要的物理效应,在国民经济、国防军事、信息通讯、医疗健康等领域具有重大应用。铁电材料极性的存在使得其往往对外场(如:电,光、热,力,声等)和表界面结构特征十分敏感,可通过应力场结合材料微结构缺陷调控的方法实现材料极性的调控,如:外延应变调控
学位
随着量子计算理论及实际实现研究的快速推进,基于离散对数、大整数分解等经典数论难题的公钥密码体制受到严重威胁,抗量子密码体制的研究成为广泛关注的问题。为应对量子计算机的威胁,2016年12月,美国国家标准技术研究院(Na-tional Institute of Standards and Technology,NIST)向全球范围 内征集抗量子密码算法标准,该行为引起世界各国各密码组织的高度关注。经
学位
复杂网络作为复杂系统的典型体现,经历了从欧拉开创的传统图论时代,到Erd?s和Rényi开创的随机图论时代,一直到Newman和Barabási等人开创了依托于真实数据的网络科学时代。在这一历程中,复杂网络的以中心性测度为代表的结构性研究和以链路预测、网络动力学为代表的功能性研究不断在诸多优秀的科学家手中发展壮大。链路预测是其中最年轻且活跃的一员。尽管在上世纪六七十年代链路预测已经萌芽,然而“链路
学位