原核生物基因组预测模型性能比较研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:caory
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术的飞速发展,我们获得的生物全基因组序列的数据是呈现爆发式增长的。对DNA序列进行分析,首先要进行基因识别的工作,传统的实验验证方法由于识别速度缓慢已经不能满足这一需求。因此,一系列相关的基因组预测工具应运而生,Prodigal、ZCURVE、GeneMark和 GLIMMER就是其中比较优秀的代表。由于种种原因或者在技术原理上的缺陷,这些基因组预测工具的预测结果都会存在着预测了错误的基因或者遗漏了具有蛋白编码功能的ORFs的情况,在不同GC含量生物上的表现也不尽相同。我们需要对这些基因组预测工具的性能作一个客观有效的评价,同时在针对不同的生物DNA序列进行基因组预测工作中为我们选择最优的基因组预测工具组合提供理论依据。  本文的研究工作针对以上的问题首先从最新的 NCBI的基因组数据库中按照GC含量的分布抽取了150个生物的DNA序列和基因注释信息。这些已有的注释信息中同样存在着遗漏或者错误的信息,我们对这150个生物都进行了基因重注释的工作,查找其中遗漏的新基因,同时排除掉其中的非编码ORFs。这些经过更新过的注释结果将作为我们测试比较这四个基因组预测工具性能的数据。  在独立模型预测结果的对比中,我们发现Prodigal的整体表现最佳,在不同的GC含量上的性能具有很高的一致性。GLIMMER在低 GC含量区间(0.10-0.35)上表现最佳,在高GC含量区间(0.35-0.75)上表现一般。ZCURVE预测结果的额外预测率EPR在GC含量区间(0.35-0.55)上性能突出。  我们还探索了在不同 GC含量生物上进行基因组预测的最优的预测工具组合,通过130个生物作为训练集,20个生物作为测试集,我们发现Prodigal加GeneMark,Prodigal加GLIMMER和GeneMark加GLIMMER这三个组合的效果是最佳的。通过对比,我们发现联合预测的结果在准确度和额外预测率EPR这两个参数上全面超过了独立预测工具的中的最佳结果。  最后,基于本文的研究结果,我们还开发了相应的批量基因重注释工具和基因组预测在线服务。
其他文献
高校思想政治教育事关党和国家意识大局,四年大学是大学生树立正确的世界观、价值观、人生观的重要时期,当前高校思想政治教育面临许多问题,主要表现在师资力量的不平衡导致
机场突发事件在世界各地屡见不鲜,一些较为严重的机场突发事件不但会带来经济损失,还有可能导致人员伤亡,在社会当中造成极其恶劣的影响.因此,我国各个地区的机场在安全建设
随着时代的发展,人们生活的环境也渐渐的城市化,工业化.在多种因素的作用下,自然环境受到了破坏,环境污染,资源紧张,生态系统严重退化等问题逐渐浮现了出来.党的十八大上,对
一、习近平总书记在“不忘初心、牢记使命”主题教育工作会议上深刻指出,“牢牢把握深入学习贯彻新时代代中国特色社会主义思想、锤炼忠诚干净担当的政治品格、团结带领全国
期刊
凹陷涡发生器冷却技术是一类基于旋流以及漩涡的强化换热技术,与其他强化传热技术相比其具有良好的换热性能以及较小的流动阻力等优点。随着现代燃气轮机透平叶片工作温度的不
钢铁企业是大气污染较为严重的工业企业类型之一,其中烧结工序是主要的污染源。循环流化床脱硫技术由于具有系统简单、性能优良、投资少等优点近年来被逐渐应用于钢铁行业烧
癫痫是由多种原因引起的临床常见的神经疾病之一,目前对癫痫疾病的治疗手段主要是药物治疗和手术切除病灶,但约有25%的难治性癫痫患者,无论药物还是外科手术均不能有效治疗。癫痫
旅游动机是指激励旅游者外出旅游的原因.旅游者的旅游动机是由需要产生的,是旅游者各种行为的驱动力.由于人们的安全感、身体状况、收入、时间以及旅游产品的质量与服务对旅
目前,中小学生学习困难问题已经成为较为关注的教育难题.由于学生个人的智力发展水平、非智力因素、接受能力、家庭教育环境、学校老师教育等不同因素的影响,往往都会产生各
换热器在工业生产中应用极为广泛,其能效和经济性一直被人们所关注。热管换热器作为相对比较新颖的一种换热器,如何考虑调整热管换热器的结构,做到在能效上和经济上兼顾,并且对热