论文部分内容阅读
为了加速蛋白质结构和功能的注解进程,研究如何通过理论计算或统计方法来预测蛋白质在细胞中的定位就成了一个非常重要的研究课题。蛋白质亚细胞定位预测对蛋白质的功能、相互作用及调控机制的研究具有重要意义。其研究成果可对蛋白质相互作用研究及新药物的开发提供借鉴和参考,还可为蛋白质的信息分析和应用算法设计提供新的思路。目前蛋白质亚细胞定位预测的研究主要集中在以下几个方面:(1)构建或选择一个有效的基准数据集来训练和测试预测模型;(2)建立能够真正反映要预测序列的本质相关属性的数学表达;(3)开发强有力的算法;(4)寻找可以用于客观评估预测模型准确率的合理验证方法;(5)建立公用的预测网站。本文针对定位预测中信息的提取、挑选及融合等问题,运用机器学习方法对蛋白质亚细胞定位预测展开研究,主要工作如下:首先,我们提出了基于位置特异性得分矩阵(PSSM)的特征表示方法,在此基础上得到三种新的特征,分别表征了进化距离、区域组成和家族分类信息,构建融合模型来系统的提取序列信息,并使用主成分分析(PCA)算法挑选关键信息。同时,还详细讨论了不同参数对实验结果的影响,具体的实验及比较结果显示了该方法的有效性。其次,通过氨基酸物化性质和结构性质的约化,描述序列局部和全局信息的“组成”、“转换”和“分布”特征,并基于氨基酸亲疏水性的数值统计特征,提出了一种新的蛋白质特征表示方法(NSBH)。分别使用三种分类器KNN、SVM及BP神经网络进行预测,比较了几种方法和特征融合方法的预测结果,显示融合特征表示及结合SVM分类器时能够达到更好的预测准确率。最后,使用MATLAB实现相关算法的图形用户界面(GUI)设计。结合具体的实例说明GUI的设计、编译及打包软件过程,详细介绍了该软件的安装和使用教程,用户可以根据自己的需求选择对应的算法来验证或者应用。