论文部分内容阅读
本文主要针对蛋白质翻译后修饰中出现的数据集不平衡问题进行相关研究,主要成果如下: (1)针对蛋白质S-亚磺酰化位点的预测准确率偏低的问题,本文提出了基于OSSU-SMOTEO重采样的S-亚磺酰化位点预测模型S-SulfPred。首先,利用具体位置氨基酸含量和67种氨基酸理化性质进行特征提取;然后,把OSSU-SMOTEO重采样方法用于平衡训练数据集;最后,基于10折交叉验证选择最优特征组合建立预测模型S-SulfPred。实验结果表明,本文构建的预测模型S-SulfPred对蛋白质S-亚磺酰化位点的识别是有效的。 (2)首次将单边选择下采样方法用于人类蛋白质羰基化位点预测问题中,同时利用具体位置氨基酸含量、K间隔氨基酸对、氨基酸成分和氨基酸疏水亲水性四种编码方案进行特征提取。通过与预测模型PTMPred、CarSpred、predCar-site和CarSPred.Y在相同的数据集上进行对比,本文建立的预测模型CarSite明显优于其他四种预测模型。 (3)O-糖基化作为一种主要的蛋白质翻译后形式,在复杂的生命活动中扮演着重要角色。由于实验方法鉴定O-糖基化位点费时费力,并且费用昂贵,所以本文构建了O-糖基化位点预测的集成模型O-GlcNAcPRED-Ⅱ。通过搜索文献和最新的数据库,建立了最新的基准数据集。针对数据的极度不平衡,本文提出了K均值主成分分析与模糊下采样相结合的采样方法(KPCA-FUS),并采用随机森林、K近邻、朴素贝叶斯和支持向量机作为旋转森林的基分类器构建了集成分类算法O-GlcNAcPRED-Ⅱ。分别利用10折交叉验证和独立的测试集合,验证了O-GlcNAcPRED-Ⅱ预测的有效性。