论文部分内容阅读
蛋白质亚细胞定位预测在识别未知功能的蛋白质序列,确定基因组标注,药物靶标发现中都有重要的意义和作用。伴随计算机和生物技术的蓬勃发展,由高通量实验积累的生物数据按几何数增加,传统的生物学实验方法已经难以满足科研需求,因此本文采用机器学习的方法来对蛋白质亚细胞进行定位预测研究。以往的研究证明将不同的特征提取方法和不同的预测算法进行组合应用到不同的标准数据集上会产生迥异的预测结果。为了得到最优的预测组合,分两步进行研究:(1)为了找到最优的序列特征提取算法,通过主成分分析法(PrincipalComponent Analysis,PCA)对基于基因本体(Gene Ontology,GO)的序列特征进行压缩,提出PCAGO特征。选取多个单一特征和基于GO的组合特征提取方法进行对比实验。实验结果显示PCAGO特征结合伪氨基酸组成法(Pseudo-amino acid composition,PseAAC)提取的序列特征在单标记数据集上的预测准确率普遍较高。为了找到最优的预测组合,将基于GO的最优组合特征作为输入,分别送入支持向量机(Support Vector Machine,SVM)、BP神经网络和K近邻(K-NearestNeighbor,KNN)三个分类预测算法进行亚细胞定位。综合实验结果可以看出将SVM预测算法和PCAGO+PseAAC的组合特征提取方法结合的预测模型在单标记数据集上表现出了最明显的优势。随着蛋白质组学研究的深入,实验发现许多蛋白质并不是只处在一个亚细胞上,即证实了多位点蛋白质(Multi-location Protein)的存在。由于多位点蛋白质发现时间短,数据积累不足,技术限制等因素,使用机器学习方法对多位点蛋白质亚细胞进行定位预测研究的时间并不长。为了提高蛋白质亚细胞多点定位预测的准确率,本文提出了一种改进的多目标学习径向基神经网络算法(RBF Neural Networks for Multi-Label Learning,ML-RBF),即CL-RBF算法。具体改进方向如下所示:(2)ML-RBF采用传统的K-means方法计算隐层中心,在隐层中心个数选取上,K-means表现出了较大的随机性和不可靠性。本文通过引入轮廓系数(Silhouette Coefficient)优化隐层中心个数。以往对隐层中心的优化只着眼于单个标记内,从而忽略了标记间隐层中心的相互影响。本文提出当同属两个不同标记的样本数量较少时,不同标记间的隐层中心距离也应尽可能大。遵循此原则,对不同标记间的隐层中心距离小于某一阈值的情况,隐层中心需要重新调整。为了消除ML-RBF训练过程中引起的误差,结合多位点蛋白质的特点,采用自适应地梯度下降算法调整ML-RBF参数。为了提高预测结果的准确性,提出一种基于聚类优化的结果集调整策略,依据测试样本与标记L的隐层中心和不属于标记L的样本生成的聚类中心的欧式距离差,调整预测结果。最后,为了考察CL-RBF在蛋白质亚细胞多点定位预测中的性能,选取其他四种多目标学习算法进行对比试验,综合考虑不同评价指标,我们发现CL-RBF在四个多标记数据集上的表现最佳。此外,为了使研究成果便于观察和使用,本文基于SVM算法和改进的ML-RBF算法编写了两个蛋白质亚细胞定位预测系统。