论文部分内容阅读
miRNA(microRNA,小RNA)是近几年在生物体内发现的一种对基因表达起重要调控作用的单链非编码小RNA,它对疾病的发生、生物的发育、细胞的增殖等诸多生物过程有着十分重要的影响。因此miRNA的识别成为认识miRNA调控机制、深入了解其作用机理的首要任务。miRNA的识别方法包括实验和计算两种方法,由于计算方法的效率很高且其代价低廉,它受到科学家越来越多的重视。我们在论文中对miRNA的计算识别算法作了深入的研究,对单环pre-miRNA和多环pre-miRNA的识别提出了新的算法。论文工作主要包括以下三方面:(1)提出了二联语法来描述pre-miRNA的局部结构-序列特征,从而为miRNA的识别提供了一种新的特征提取方法。二联语法对pre-miRNA的序列和二级结构作如下处理:①精确描述pre-miRNA二级结构的子结构(包括内部膨胀和内部对称环)。②用空碱基屏蔽序列上频繁变异的碱基。③由序列的碱基和二级结构符构成二联子,并计算每种二联子出现的频率。为了测试二联语法的性能,我们训练了一个基于二联语法提取特征的SVM分类器。在miRBase 12.0上,这个分类器在人类数据集上达到了81.98%的敏感性和87.16%的特异性;在除人类的其他物种上,这个分类器能正确识别其中86.71%的pre-miRNA。在相同数据集上的对比实验表明,比起传统的结构-序列特征提取算法,二联语法算法能更精确的表述pre-miRNA最鲁棒、最本质的特征。(2)二联语法用于单环pre-miRNAs的结构-序列特征提取,而对于多环的pre-miRNAs,现在还没有专门的预测方法。我们对多环pre-miRNAs的预测做了初步的研究,提出了一种基于切分方法的专门针对多环pre-miRNAs的预测算法。该算法的基本思想是:把多环的RNA切分成多个单环的片段,然后选取最能代表这个多环序列特征的单环片段(我们称为主环),并根据这个被选取的单环片段的特征来判定多环序列是否是pre-miRNA。测试结果表明这种算法能达到令人满意的准确率,是预测多环pre-miRNAs的有效算法。(3)在提供二联语法算法源代码的同时,我们还利用CGI编程技术把该算法实现了网络化,使用户可以直接通过网络的方式使用我们的算法,从而大大简化了用户的操作,方便了使用。(4)初步研究了多环pre-miRNA的预测,提出了一种基于切分的预测多环pre-miRNA的新算法。