论文部分内容阅读
人类基因组计划的顺利完成导致了核酸序列和蛋白质序列的急剧增加,与核酸序列相比,大部分的蛋白质功能未知。因此从这些蛋白质序列中挖掘出有用的功能信息十分重要。蛋白质序列决定其结构,进而决定蛋白质的功能,而传统的实验难以满足海量的蛋白序列分析,所以在生物信息学中发展了机器学习算法来研究蛋白质的空间结构。蛋白质结构类能反映蛋白质的二级结构和三级结构,也与蛋白质功能密切相关。因此本文以蛋白质结构类为研究对象,利用机器学习的方法来研究蛋白质空间结构,其主要内容如下:首先本文构建了一个可靠、严谨的基准数据集,其相似性~15%,包含399条蛋白质结构类序列;其次,本文分别选用了三肽组成、位置特异性矩阵、预测二级结构信息和平均化学位移来表征蛋白质序列,对于维度高的三肽组成特征,选用二项分布和增量特征筛选出最优三肽特征以避免过拟合现象,最终得到1254维的最优三肽组成特征;再者,使用支持向量机分别对四种特征构建预测模型;随后,融合四种特征形成11种新的特征,再用支持向量机构建蛋白质结构类的预测模型。Jackknife交叉结果表明,四种特征提取方法单独分类时,最优三肽组成所构建的预测模型总的精度最高,其中总体准确率为91%,平均准确率为90.5%。融合特征后有5种新的特征准确度高于95%,3种特征组合高于90%,其中最优三肽组成和平均化学位移的总体准确率最高,达到96.7%,平均准确率为96.4%。事实上,位置特异性矩阵特征构建的模型的性能比最优三肽组成、预测二级结构信息和平均化学位移差。比较目前提出的蛋白质结构类的预测方法,我们发现本文所构建的预测模型准确率更高。除此之外,针对支持向量机得到最佳性能的模型特征,本文还对比了不同的分类算法,其中包括J48、朴素贝叶斯、人工神经网络、元算法和随机森林,结果表明我们选用的支持向量机在各个性能指标上都优于其他的算法。因此本文所构建基于最优三肽组成特征和平均化学位移的方法所构建的预测模型可作为预测低相似性蛋白质结构类的可靠的工具。