论文部分内容阅读
piRNA的识别是目前生物信息学领域研究的热点问题之一。piRNA,又称Piwi-interacting RNA是一类重要的非编码小RNA,其长度大约是25到32个核苷酸,可以和Piwi蛋白结合形成piRNA复合物,并且与RNA沉默作有关。目前对于非编码RNA的研究工作主要分为两个方面,一是大规模非编码RNA的鉴定,主要借助于计算机,从已有的非编码RNA中提取特征信息,然后将特征信息进行全基因组尺度的识别;二是采用基因组学和实验方法研究非编码RNA的功能。本文以人类、小鼠、大鼠、果蝇等模式生物作为研究对象,通过搜集现有经实验验证的piRNA序列构建训练集合,分别构建了基于核苷酸组分和物理化学性质分类的多种特征表示模型,并采用朴素贝叶斯分类器结合5轮交叉检验的方法进行预测。最后对各种模型的预测结果进行了比较。结果表明k-mer频率结合核苷酸分类的特征组合模型得到了较好的预测性能,总准确度达到82%多,高于k-mer频率等的特征模型。
本文的主要内容安排如下:
第一章简述生物信息学的主要研究内容及本文的主要工作;
第二章概述非编码RNA的分类预测问题的背景和研究现状;
第三章介绍常见的特征构建和机器学习方法,包括k-mer法、核苷酸分类的特征表示方法、K-2阶马尔科夫模型等;
第四章介绍本文的主要工作——基于朴素贝叶斯的piRNA的识别问题研究;
第五章总结及未来展望。