基因组框架填充问题的算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:ll6960071
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算生物学是一门应用计算机技术对生物数据进行存储、解析、建模和计算,并从中获取生物信息的学科。计算生物学根据研究数据的类别又分为计算基因组学、计算蛋白组学和计算转录组学等。计算机基因组学研究者通常将基因组学中的生物问题抽象为组合优化问题,从而运用解决组合优化问题的方法来求解。组合优化问题属于最优化问题的范畴,即从组合问题的可行解集中求出最优解。然而,这些优化问题往往是比较难解的。因此,计算基因组学中绝大部分问题都是NP-Hard 的。计算基因组学中的研究内容一般包括基因组测序技术、组装算法、基因组之间的比较和基因组重组等,而基因组框架填充是计算基因组学中新兴的热门研究领域之一。基因组框架填充问题分为有重复基因和无重复基因两类。无重复基因的基因组框架填充问题比较简单,是多项式时间可计算的。而有重复基因的基因组框架填充却是比较难解的。很多有重复基因的基因组框架填充的变种问题已被证明是NP-Hard的,所以在P不等于NP的前提下不存在多项式时间算法。因此,研究者大多致力于设计和分析这些问题的多项式时间近似算法,希望在可接受的时间内获得一个较好的可行解。基因组框架填充问题根据给定的框架是否含有参考基因组,分为单面和双面的基因组框架填充问题。如果给定的两个框架中有一个是完整的参考基因组,即存在一个邻近物种的全基因组作为参考,则称之为单面基因组框架填充。否则,称之为双面基因组框架填充。无论是单面还是双面的基因组框架填充,如果含有重复基因,则大多数情况下都不存在多项式精确算法。在基因组组装不完全依赖全基因组测序的趋势下,基因组框架填充的目标是将缺失基因填充到不完整的基因组序列中以得到与原始基因组相近的替代基因组,从而有效改善基因组组装的结果,降低全基因组测序的成本。衡量基因组框架填充后的序列与原始基因组相似性的标准有很多,比较典型的有基因组重组距离、抽样断点距离、断点数、公共划分和公共邻接数等。由于断点数和公共邻接数本身计算的简单性,近年来基因组框架填充问题的模型大多以最小化断点数和最大化邻接数为优化目标。本文针对以最大化邻接数为目标的基因组框架填充问题,精确解析了其最优解的结构,并通过构造冲突图,将求插入串转换为在冲突图中求最大独立集问题,从而设计了一个多项式时间近似算法,将近似比由原先的1.5改进到了 1.4+ε。另外,本文首次将保留有序对引入到基因组框架填充问题,提出一个基因组框架填充问题的新模型,即块匹配模型,研究了以最大化保留有序对增加数为目标的基因组框架填充问题。通过分析大量实例,研究了其复杂性和不可近似性,设计了一个特殊情况下的线性精确算法和三个一般情况下的多项式时间近似算法。本文的主要研究工作和创新点总结如下:1、准确解析以最大化邻接数为目标的基因组框架填充问题的最优解本文通过分析大量实例,对基于最大匹配,以最大化邻接数为目标的基因组框架填充问题的最优解展开研究。通过找到插入串之间的相关关系,引入相关图(Relevant Graph)和路径分支(Path Component)的概念,将由缺失基因组成的,且必须要作为一个整体插入的若干个缺失基因串表示为一条路径分支。如果两条路径分支相互影响,则意味着两个缺失基因串集合在插入的时候相互影响,因此可以通过一定的方法将其合并为一条路径分支,使两个插入串集合并为一个。进而将合并后的插入串集中的所有基因串同时插入到对应的位置,得到更多的邻接。通过严格的证明,本文将任意一个最优解转换为一个具备最少路径分支数的特殊最优解。通过分析该最优解的结构,求得了最优解中邻接数的上界。这项工作为后续近似算法的设计和近似比的证明奠定了基础。2、设计了以最大化邻接数为目标的双面基因组框架填充问题的1.4+ε-近似算法已知,以最大化邻接数为目标的基因组框架填充问题是NP-Hard的。目前双面基因组框架填充问题最好的近似算法的近似比能达到1.5。本文针对基于最大匹配,以最大化邻接数为目标的双面基因组框架填充问题(Two-Sided Scaffold Filling to Maximize Number of Common Adjacencies,简称 TSSF-MNCA),设计了近似比为1.4+ε的多项式时间近似算法。该近似算法通过构造具有特殊性质的冲突图,证明冲突图是一个k-Claw Free图,把求插入串的问题转换为在k-Claw Free图中求最大独立集的问题。从而,利用Halldórsson设计的求独立集的多项式时间算法,求得足够的完美插入串。通过严格的证明和分析,本文得到该近似算法的近似比为1.4+ε,其中ε为大于0的常数。3、设计了特殊情况下的以最大化基因组保留有序对增加数为目标的单面基因组框架填充问题的精确算法考虑到以最大化邻接数的模型已经难以满足生物数据分析中的实际需求,本文将保留有序对引入到基因组框架填充问题中,并提出了一个基因组框架填充问题的新模型,即基于块匹配的以最大化保留有序对数为目标的基因组框架填充。用保留有序对数来描述填充后序列的相似性可以使结果更准确。本文主要研究了特殊情况下的基于块匹配模型,以最大化保留有序对增加数为目标的单面基因组框架填充问题(One-Sided Scaffold Filling to Maximize Increased Duo-preservations,简称OSSF-MIDP)。通过对其大量实例进行分析,发现了 OSSF-MIDP问题的一种特殊情况,记为Sim-OSSF-MIDP问题。在Sim-OSSF-MIDP问题中,框架中不存在未匹配的基因。本文为其设计了一个时间复杂度为O(n)的精确算法,证明了 Sim-OSSF-MIDP问题是多项式可计算的,甚至是线性可计算的。4、分析了一般情况下的以最大化基因组保留有序对增加数为目标的单面基因组框架填充问题的复杂性和不可近似性本文主要研究了一般情况下的基于块匹配的以最大化保留有序对增加数为目标的单面基因组框架填充问题(OSSF-MIDP)的复杂性。通过构造一个从MAX SNP-Complete问题,即3DM的变种问题((3DM-2)1)到OSSF-MIDP问题的L-归约,证明了 OSSF-MIDP 是 NP-Hard 的,甚至是 MAX SNP-Complete 的。由此证明,OSSF-MIDP问题不存在多项式时间近似方案。与此同时,本文还研究了 OSSF-MIDP问题的不可近似性,通过利用((3DM-2)1)问题的一个不可近似界,证明了 OSSF-MIDP问题不可近似到16263/16262以内。5、设计了一般情况下的以最大化基因组保留有序对增加数为目标的单面基因组框架填充问题的3个多项式时间近似算法本文针对一般情况下的OSSF-MIDP问题,求得了该问题最优解的上界,并设计了 3个多项式时间近似算法。通过设计一个近似比为2的基本算法,保证了增加的保留有序对的个数恰好与插入的缺失基因个数相等。以此为基础,得到了最优解的公式表达,并求得其中的一个上界。然后,应用贪心策略,设计了一个近似比为12/7的多项式时间近似算法;应用局部搜索技术,设计了一个近似比为14/9的多项式时间近似算法。
其他文献
滚珠丝杠副作为机械装备、智能数控加工中心以及航空航天等工业领域的重要精密传动功能部件,其传动精度及使用寿命直接关系到高端装备的使用精度及寿命。在国家科技专项支持下,滚珠丝杠副产品在传动精度及使用寿命方面取得了明显进步,但与国外高端产品仍有差距,目前国内装备生产厂家对高端滚珠丝杠副的需求仍以国外进口为主,成为制约高端滚珠丝杠副国产化应用的突出瓶颈问题。考虑到滚珠丝杠副承载应用过程中,不同工况下受载位
学位
租赁分为经营租赁与融资租赁,2016年,国际会计准则理事会发布了《国际财务报告准则第16号—租赁》,并规定不再区分经营租赁与融资租赁,均纳入财务报表,2018年,财政部发布了《企业会计准则第21号—租赁》(修订稿),其内容与国际接轨,将融资租赁与经营租赁均纳入报表,并确认相应资产和负债。但在本文的样本研究期间,融资租赁与经营租赁在会计记录上最重要的区别是融资租赁纳入财务报表但经营租赁记录在表外。不
学位
教师专业发展是当前教师教育的主题。形成自己的教学风格,是教师主体意识和主体价值的彰显。教师能否形成教学风格,直接指向其主体价值实现的可能。已有研究表明,教学风格是多因素综合影响下的结果,但未揭示具体因素对教学风格的影响关系。本研究以探究小学教师教学风格形成为论题,在以往研究的基础上揭示有关因素对小学教师教学风格影响程度与趋势,并在具体场域中分析有关因素对小学教师教学风格的形塑过程。教学风格是某个时
学位
伊夫林·沃是一名二十世纪英国最优秀的小说家之一。在19世纪末20世纪初期,新兴资本主义国家的强盛,两次世界大战的冲击以及经济危机的波及使得曾经的日不落帝国辉煌不再,逐渐走向衰落。沃以辛辣讽刺的笔风,以揭露日渐衰落的社会现状为写作主题,吸引了众多批评家们的目光。学者们大多专注于反讽写作手法、宗教主题以及作家研究,关于沃小说中的现代怀旧意识研究往往被忽视,且值得更多的关注。本论文主要研究了伊夫林·沃对
学位
目的 :为深入了解新型冠状病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)的刺突糖蛋白(spike glycoprotein)的结构特征和抗原表位。方法 :以SARS-CoV-2的刺突糖蛋白的氨基酸序列为对象,通过Clustalw2.1比对分析与SARS-CoV的相似性;并且利用ProtParam分析刺突糖蛋白的理化性质;
期刊
研究背景糖尿病是全球常见的疾病之一,患病率呈逐渐上升趋势,糖尿病各种并发症以及治疗的不良反应在很大程度上影响患者生活质量,威胁患者生命健康,糖尿病已经成为一个严重的全球公共卫生问题,因此预防及延缓糖尿病并发症是临床治疗的重要目标。糖尿病肾病(Diabetic Kidney Disease,DKD)是常见的糖尿病微血管慢性并发症,也是引起终末期肾病(end stage renal disease,E
学位
前言肺癌的发病率和致死率在恶性肿瘤中均居首位。非小细胞肺癌(NSCLC)作为肺癌中最常见的组织学亚型,约占肺癌的87%。NSCLC的侵袭性较高,5年生存率仅约24%。近年来,随着化疗方案的优化以及靶向治疗的兴起,针对晚期NSCLC患者的治疗方案逐渐多元化,但因为肿瘤异质性、耐药性等因素造成NSCLC患者治疗效果一直欠佳。因此提前预测NSCLC患者的疗效及准确区分NSCLC患者的组织学亚型对临床实施
学位
电荷和自旋是电子的两种内禀属性。基于电子电荷属性的半导体技术和基于自旋属性的自旋电子学的大力发展,在当代信息传播和存储等方面发挥了关键的作用。磁性半导体在单一材料中结合了磁性和半导体性质,是十分有趣的半导体自旋电子学材料之一。本论文以ZnO基磁性半导体材料为研究对象,在以下三方面开展了对其自旋电子学材料制备、自旋相关输运机理及电场调控的研究。一.磁性半导体要达到实际器件应用的目的,除了稳定的半导体
学位
全球心衰患者的数量正在逐年攀升,心脏移植仍然是治疗晚期心衰的最佳方案但心脏供体严重匮乏,促进了机械循环支持装置在临床中的应用和发展。针对长期的连续恒流泵缺乏生理性、会带来并发症、影响患者的生命健康的问题,本文围绕如何实现和增强血流脉动性以及提升左心室辅助装置的生理性展开研究。第一,建立了心血管耦合系统血流动力学模型。鉴于现有的研究很少见在心血管系统模型中纳入压力反射调节,且加入反射模型的则仅改变心
学位
在国内外学界关于正义问题的研究中,“马克思与正义”一直是人们探讨的一个重要问题。关于马克思与正义这个问题,学者之间存在诸多的争论。而争论的重要起因在于,对马克思正义思想材料的挖掘程度以及分析视角的不同。本文立足于马克思的文本,尝试从马克思主义整体性视域,揭示出马克思正义思想的理论图景,展现马克思正义思想的独特魅力。首先,从理论渊源与发展轨迹两个方面,文章剖析了马克思正义思想的发展历史,概括了马克思
学位