论文部分内容阅读
随着人类基因组计划实施的不断深入,生物学的数据信息飞速增长,如何从这些海量数据中提取有用的知识,揭示这些数据所蕴含的生物学意义,是对计算机科学的巨大挑战。从结构上来挖掘生物分子在生命过程中的作用,首先要解决的问题就是结构预测。伪结是 RNA二级结构中最难预测的一种,目前的算法主要是对平面伪结进行预测。平面伪结对RNA功能的实现起着关键的作用,对含平面伪结的RNA二级结构预测的研究具有重要的现实意义。 首先,本文针对RNA碱基的预测分类问题进行研究,给出了基于FDAGSVM的对RNA碱基进行预测分类的算法。RNA碱基的准确分类是正确预测其二级结构的前提,该算法对决策结果进行了模糊化处理,以计算模糊隶属度代替取符号运算,并依据模糊隶属度的值决定样本在决策有向无环图中的路径。 其次,针对利用E-NSSEL标识序列恢复RNA二级结构过程中碱基的编码问题,本文提出了一种把 RNA序列中可能配对的两个碱基看作为一个整体进行编码的方法。先将一个碱基的局部环境模式进行向量表示,然后再将可能配对的两个碱基的局部环境模式的向量表示进行连接,形成碱基对的向量表示。 最后,利用RNA碱基序列经预测分类得到的E-NSSEL标识序列,基于前面提出的碱基对编码方法,通过一个两分类支持向量机的判断,恢复RNA二级结构。