论文部分内容阅读
生物信息学是一门计算机科学和生物学的交叉学科,其宗旨是利用计算机知识解决生物问题。近年来随着生物测序技术研究不断深入,DNA序列以及蛋白质序列的数据开始呈爆炸性增长。序列属于生物大分子的一级结构,并且序列信息能够反映空间结构的特点。如何利用这些一级序列来获取更多关于生物大分子的结构以及功能信息是当前需要解决的问题。本文结合提取序列信息特征的方法和机器学习的方法对转录和蛋白质结构识别中的关键问题进行了研究,即重组热点识别问题和蛋白质折叠识别问题。 重组热点在生物进化过程中扮演着很重要的角色,并且重组热点识别对研究DNA的功能以及蛋白质的功能有很大的帮助。为了提高识别的准确率,研究学者们使用了多种基于序列信息的特征来进行重组热点识别。其中 kmer特征是 DNA研究分析中比较常用的一种基于序列信息的特征。但是随着kmer长度的增大,会出现很多kmer只出现一次或者一次都没出现的情况,这使得得到的特征向量比较稀疏,容易出现过拟合的问题。为了克服这个缺点,另一种基于序列信息的特征gapped kmer特征被用来解决相关生物信息学问题。本文首次将gapped kmer特征用来进行重组热点识别,应用了Ghandi等人提出的gapped kmer核,构建了SVM-GKM模型来解决重组热点这个问题。该方法结合了gapped kmer特征以及支持向量机模型来进行重组热点识别,并且实验结果表明SVM-GKM模型在重组热点识别这个问题上具有很好的识别效果。 折叠结构作为蛋白质的二级结构,对一级序列以及多级结构具有承上启下的意义,对研究蛋白质的功能发挥着很重要的作用。蛋白质折叠识别的主要问题是如何提高折叠识别的识别率。针对这个问题本文做出了两点改进。首先通过对原始序列进行预处理,得到包含进化信息的频率谱序列。其次,由于单一的特征所描述的序列信息不一定全面,为了得到更多的序列信息,采取了融合多种特征的策略。本文融合了5种特征,分别为gapped kmer特征、自协方差特征、bi-gram特征、伪氨基酸组成特征以及五种属性特征,并结合支持向量机的方法构建了PP-MF蛋白质折叠识别模型进行折叠识别。本文在两个数据集上进行了实验,并且实验结果表明PP-MF方法比大多数折叠识别分类方法的分类效果要好。