【摘 要】
:
随着特高通量DNA测序技术的出现,微生物基因组DNA序列的积累超出了当前注释这些数据的能力范围,基因组注释不可避免地要依靠完全自动的注释流水线,从而导致并传播相悖的和错误的基因注释。为了能更好地理解完整的基因组,我们需要知道基因组注释究竟可靠到什么程度。在没有实验室实验验证这些计算分析结果时,我们是不可能得到确切答案。然而,越来越多积累起来的有关已知蛋白质的信息可以帮助我们推断基因注释的准确性,并
论文部分内容阅读
随着特高通量DNA测序技术的出现,微生物基因组DNA序列的积累超出了当前注释这些数据的能力范围,基因组注释不可避免地要依靠完全自动的注释流水线,从而导致并传播相悖的和错误的基因注释。为了能更好地理解完整的基因组,我们需要知道基因组注释究竟可靠到什么程度。在没有实验室实验验证这些计算分析结果时,我们是不可能得到确切答案。然而,越来越多积累起来的有关已知蛋白质的信息可以帮助我们推断基因注释的准确性,并对目前基因组注释流程带来的问题建议可能的解决途径。本论文以氧化葡糖杆菌Gluconobacter oxydans621H为研究对象,它可以通过氧化发酵不完全氧化碳水化合物并可用于生产维生素C。Gluconobacter oxydans621H的染色体由2.7M碱基对组成,GC含量为61%。本文比较分析了由三种广泛使用的自动注释流水线(IMG,RAST,JCVI)对该基因组的注释,结果表明,这三种注释对蛋白质编码基因的标示显示了较高的一致性,但是差异也是显著的。最显著的区别是基因注释中有大量的编码基因(670)是部分一致的(终止位点相同但起始位点却不同)。这是细菌基因组注释中遇到的普遍问题,我们制定了一套经验规则对BLAST结果进行分类来推测编码基因正确的起始位点。基于同源性策略,最终有247个基因可以找到证据支持从多个选择的起始位点中推测到正确的那一个。三种注释服务器总共预测到的2787个蛋白质编码基因中有1686(60%)个基因是完全一致的,即这些基因在所有服务器的注释中都是完全相同的基因组序列位置。另一方面,有431(15%)个基因是完全不一致的,即至少有一个服务器没有预测到。通过蛋白质同源性和基因保守域特征检验这些预测基因,我们估计三个服务器IMG、RAST、JCVI最低限遗漏的基因数分别为65,15,18。
其他文献
Background: Preservation of the arterial arc formed by left colic artery,proximal inferior mesenteric artery and the first branch of the sigmoid arteries with apical lymph node dissection could increa
冠心病是全球范围内的高死亡率疾病,严重危害着人类的生命健康。经皮冠状动脉介入治疗目前已成为国内治疗冠心病的常用手段,但对冠心病发病机制的探讨、冠心病的有效预防及治疗方案的探索依然是临床研究的热点。近年来大量文献研究证明了肠道微生态与冠心病间的相关性,而祖国医学中“心脾相关”的理论与现代研究成果不谋而合。肠道微生态与冠心病的关系成为了防治冠心病的新突破口,基于心脾理论的中药治疗或许能在其中发挥重要作
目的观察骶神经调控(膀胱起搏器)治疗慢性非梗阻性尿潴留的临床疗效。方法对4例慢性非梗阻性尿潴留患者进行骶神经调控治疗。观察骶神经调控治疗前和治疗2周后的排尿日记(包括排尿次数、排尿量等)、尿动力学检查指标(包括逼尿肌压、最大尿流率和残余尿等)及生活质量评估,并对所得数据进行统计学分析。结果与治疗前比较,排尿次数和残余尿显著减少(p<0.01),而排尿量、逼尿肌压、最大尿流率显著增加(p<0.01)
华语影坛自《英雄》开启中国商业片时代以降,从未出现过真正硬科幻内核的长片,不仅产业内毫无经验可循,刘慈欣本人在接洽改编权事宜时也只能摸着石头过河,每一次选择都注定是一场豪赌。虽然2006年到2007年间出版的《三体》与《三体2:黑暗森林》就已彻底确定了刘慈欣中国科幻文学第一人的位置,但直到美籍华裔科幻作家刘宇昆译介《三体》英文版,至《三体》历
动脉粥样硬化(AS)作为脂质驱动的慢性炎症反应,其发病与人们饮食模式的改变有关。浊邪是现代中医病因病机学的一次创新,具有隐匿性、暗耗性、杂合性、易阻性、多变性、缠绵性,切合AS的病理特点。目前从"正虚浊伏"入手,治疗AS取得有效进展,但对浊邪的认识还相对抽象,未落实到具象靶位。近年来,肠道菌群代谢产物氧化三甲胺(TMAO)的探讨,深化了"正虚浊伏"和AS的具象联系,发现TMAO处在水谷精微代谢途径
本文给出了R-模糊强正则子半群,广义模糊强正则子半群,(∈,∈∨q(λ,μ))-模糊强正则子半群,Γ-h半环的广义模糊k-理想和(∈,∈∨q(λ,μ))-模糊k-理想的概念,研究了它们的一些相关的性质和等价条件.具体的内容如下:在第三章中,给出了R-模糊强正则子半群的概念,讨论了它的一些代数性质,并且举例子说明了R-模糊强正则子半群是一个与R-模糊正则子半群不同的模糊代数结构.针对9种常用的蕴涵算
在大数据时代的背景下,数据资产已经成为企业的战略性资源这一观点早已深入人心,数据资产越来越得到企业的重视,尤其是对于互联网企业这种轻资产型且依靠互联网技术发展的企业来说具有非常重要的意义。关于数据资产价值的量化问题日益重要,但是目前国内外在这方面的相关研究较少且仍没有行业内较为公认的评估模型和方法,本文基于这样的背景下对互联网企业的数据资产价值的评估方法进行了深入的研究。本文首先对数据资产的特性和
作为一种很重要的抑癌基因,p53基因已成为生物学领域中研究热度最高的基因之一。本文以p53基因mRNA序列和蛋白质序列为研究对象,选取序列的特征性指标,建立序列间模糊邻近关系,运用模糊聚类分析方法对p53基因序列进行了分析。具体工作如下:在第一章中,简要介绍了生物信息学的相关内容,p53基因的相关知识和研究情况以及本文的主要工作和创新点。在第二章中,首先根据模糊等价关系的性质,利用加权汉明距离法,
螺旋藻是一种具有35亿年生命史的古老藻种,对环境胁迫具有很强的耐受力,同时,螺旋藻也是一种产业化的经济微藻,是富集和转化硒的理想载体。本文研究了螺旋藻的水分胁迫效应及其富硒培养中的剂量-时相效应,获得一些有意义的结果: 1.对钝顶螺旋藻(Spirulina platensis)进行常温脱水处理,研究水分胁迫对S.platensis的生理生化影响。结果表明,藻蓝蛋白对水分胁迫最敏感,其次为叶绿
21世纪以来,人类越来越清晰地认识到传统内燃机车辆的发展会带来环境污染和温室效应等严重后果,混动和纯电的型式代替内燃机逐渐成为普遍的选择。与此同时,通用机场建设是保障通用航空建设发展的重要一环,为此我国不断出台有关政策,2020年全国通用机场目标数为500个,到2030年将到达2058个。机场数量大量增加,背后需要机场基础设施的研发紧跟步伐,大型机场除雪车是我国北方地区机场冬季正常运行必不可少的设