论文部分内容阅读
随着人类基因组计划的进行,大量的序列信息随之而来,这些信息急需收集、处理和对其进行系统的研究分析,传统的生物方法已经满足不了要求,生物信息学应运而生。RNA作为遗传物质的传递者,使得其与蛋白质和DNA成为了生物体内最重要的大分子。通过对RNA功能与作用的研究,人们逐渐意识到RNA也和蛋白质一样,具有结构的多样性,随着研究的深入,发现RNA的功能与其结构密切相关,RNA结构的保守性要大于其序列的保守性,确定其结构信息才能使其功能得到更深入的研究,RNA二级结构预测成为生物信息学中重要的研究方向。RNA二级结构预测算法经过多年的发展主要分为:以同源序列为基础的序列比对算法、基于自小自由能的动态规划算法和通过求解局部最优解来得到全局最优解的启发式算法。这些算法将各个学科中得方法应用到RNA二级结构预测之中,都取得的比较好的效果,同时这些算法也都有着一定的不足和局限性,尤其是对于假结的预测并不准确,没有一种算法能够真正全面地解决RNA二级结构预测问题,但是这些算法对于RNA二级结构预测研究有着深远的影响。本文主要是使用最小自由能的基本原理,预测出具有最小自由能的茎区和结构之后再预测假结结构,假结是一种特殊的二级结构,虽然存在的个数少,但却有着重要的功能,假结结构的预测一直是RNA二级结构预测中的难点问题。本文通过对大量含假结的RNA序列数据进行分析之后,提出了使用假结结构特征的方法来修正和补充现有的假结能量模型,使能量模型更符合真实结构假结的描述。又提出了基于最小自由能的最优茎区筛选方法,通过不同茎区的组合,找到所有可以形成RNA二级结构的子结构,使用最近邻模型计算出这些子结构的能量,选择其中具有最小能量的结构组成一个新的预测结构,这样就得到了具有最小自由能的茎区集合,将其用于假结结构的预测,将可能形成的假结通过假结能量模型进行评估,如果能使结构的整体能量减小,就说明假结可以形成。通过与现阶段比较流行的可预测假结结构的算法进行比较分析,本方法有较好的预测结果。从RNA数据库中选取实验数据后,使用本方法进行RNA二级结构预测,通过实验结果的分析,特异性达到70.5%,敏感性到达67.3%,在有些序列的预测中高于其他的算法,而对于假结的预测,预测出假结的个数多与其他算法,具有较高的准确度。