论文部分内容阅读
蛋白质翻译后修饰是蛋白质在翻译后发生的化学修饰,在生命过程中起着至关重要的调控作用。深入研究鉴定蛋白质翻译后修饰位点,对揭示生命活动的机理、筛选疾病的临床标志物、鉴定药物靶点等方面具有重要意义。本文基于机器学习和多信息融合对蛋白质翻译后修饰位点进行研究,研究内容如下:1.提出一种新的蛋白质S-亚磺酰化位点预测方法SulSite-GTB。首先,基于多种蛋白质特征信息,包括二肽组成(dipeptide composition,DC)、氨基酸组成(amino acid composition,AAC)、分组重量编码(encoding based on grouped weight,EBGW)、K近邻得分(K nearest neighbors scores,KNN)、位置特异性氨基酸倾向(position-specific amino acid propensity,PSAAP)、位置权重氨基酸组成(position-weighted amino acid composition,PWAAC)和伪位置特异性得分矩阵(pseudo-position specific score matrix,PsePSSM)等进行特征提取,融合七种特征编码信息,得到特征搜索空间。其次,运用SMOTE(synthetic minority oversampling technique)算法对类别不平衡数据进行处理,利用LASSO(least absolute shrinkage and selection operator)算法去除冗余信息得到最优特征子集。最后,将最优特征子集输入到梯度提升决策树分类器中预测S-亚磺酰化位点,运用5折交叉验证和独立测试集方法评估模型的预测性能,训练集和独立测试集的总体预测准确率分别为92.86%和88.53%,AUC值分别为0.9706和0.9425,并与其它预测方法进行对比。结果表明本文提出的方法SulSite-GTB显著优于其它预测方法。2.提出一种新的丙二酰化位点预测模型方法DeepMal。首先采用增强氨基酸组成(enhanced amino acid composition,EAAC)、分组增强氨基酸组成(enhanced grouped amino acid composition,EGAAC)、二肽偏离预期平均值(dipeptide deviation from expected mean,DDE)、K近邻得分(K nearest neighbors scores,KNN)和BLOSUM62矩阵特征提取算法进行特征提取。其次,使用线性卷积神经网络提取丙二酰化位点特异性特征。再次,经过最大池化层来选择相关特征并且降低特征维数。最后,通过多层神经网络对丙二酰化位点和非丙二酰化位点进行分类。在独立数据集E.coli、H.sapiens、M.musculus上,AUC值分别为0.974、0.956和0.944,准确率分别达到96.5%、95.5%和94.5%,相比于其它预测模型,预测准确率提高9.5%-18.5%,进一步表明预测模型DeepMal的有效性。使用深度学习可以提高预测丙二酰化位点模型DeepMal的鲁棒性,并且促进其它蛋白质翻译后修饰位点的预测研究。