论文部分内容阅读
近年以来,越来越多的研究表明RNA在生命过程中发挥着非常重要的作用。RNA不仅是具有生物细胞结构的遗传讯息的中间载体,还具有基因表达调控、催化mRNA的剪接、加工和修饰RNA前体等其它重要功能。因此,对RNA分子的研究一直是生物信息学中的一个重要领域。而不同RNA所具有的功能与RNA的分子结构却有着密切的关系,为了更进一步的探索其更多的功能,就需要借助于RNA的二级结构。因为RNA分子自身所具有的难以结晶、降解速度快等特点,所以通过核磁共振(Nuclear magnetic resonance)或者X-射线晶体衍射和其他常规的实验方法预测RNA三维结构的费用高,耗时长。尽管通过常规的方法来确定RNA结构可以更加精确和可信,但是面对代价昂贵以及当前的海量数据,显然是满足不了需求的。所以,利用计算机实现的各种算法和数学方法来预测RNA二级结构成为公认的主要方法。本文对当前主流的RNA二级结构预测方法进行了较为深入地研究,包括基于热力学的方法(最小自由能方法、碱基最大配对法等);比较序列分析法(共变模型、随机上下文无关语法模型);启发式算法(遗传算法、模拟退火算法)等。通过对这些方法的研究,总结出其所各自所存在的优缺点,为本文的预测算法奠定了坚实的理论基础。首先,本文研究了使用最小二乘法支持向量机,从RNA序列特征入手对非编码RNA进行基因预测,相对于传统的支持向量机把解二次规划问题转化为求解线性方程组问题。在预测算法中结合主成分分析提取RNA序列的特征,对数据进行维数压缩,排除了主观因素的干扰,减少变量存储空间和计算量。通过对10种原核生物的tRNA序列的实验测试表明,本方法是一种能够有效预测原核生物ncRNA的方法。其次,本文研究了粒子群优化算法在RNA二级结构预测问题中的应用,提出了基于该方法来预测RNA二级结构的模型(PSOfold)。为了提高搜索最优解的能力,结合了模糊逻辑控制自适应动态地调控粒子群优化算法的参数,包括惯性权重、学习因子和粒子数量比。为了进一步解决PSOfold中的茎区排列问题,我们提出一种解转化策略,将离散值转换为一个有序的茎区组合。实验中选用了10条RNA序列分别从敏感性、特异性和F-measure度量与多种其他方法进行了比较。实验结果表明,这种方法是有效的并且优于其它基于进化算法和群智能的算法。