基于上下采样的几种蛋白质翻译后修饰位点的预测

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:d_kong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要针对蛋白质翻译后修饰中出现的数据集不平衡问题进行相关研究,主要成果如下:  (1)针对蛋白质S-亚磺酰化位点的预测准确率偏低的问题,本文提出了基于OSSU-SMOTEO重采样的S-亚磺酰化位点预测模型S-SulfPred。首先,利用具体位置氨基酸含量和67种氨基酸理化性质进行特征提取;然后,把OSSU-SMOTEO重采样方法用于平衡训练数据集;最后,基于10折交叉验证选择最优特征组合建立预测模型S-SulfPred。实验结果表明,本文构建的预测模型S-SulfPred对蛋白质S-亚磺酰化位点的识别是有效的。  (2)首次将单边选择下采样方法用于人类蛋白质羰基化位点预测问题中,同时利用具体位置氨基酸含量、K间隔氨基酸对、氨基酸成分和氨基酸疏水亲水性四种编码方案进行特征提取。通过与预测模型PTMPred、CarSpred、predCar-site和CarSPred.Y在相同的数据集上进行对比,本文建立的预测模型CarSite明显优于其他四种预测模型。  (3)O-糖基化作为一种主要的蛋白质翻译后形式,在复杂的生命活动中扮演着重要角色。由于实验方法鉴定O-糖基化位点费时费力,并且费用昂贵,所以本文构建了O-糖基化位点预测的集成模型O-GlcNAcPRED-Ⅱ。通过搜索文献和最新的数据库,建立了最新的基准数据集。针对数据的极度不平衡,本文提出了K均值主成分分析与模糊下采样相结合的采样方法(KPCA-FUS),并采用随机森林、K近邻、朴素贝叶斯和支持向量机作为旋转森林的基分类器构建了集成分类算法O-GlcNAcPRED-Ⅱ。分别利用10折交叉验证和独立的测试集合,验证了O-GlcNAcPRED-Ⅱ预测的有效性。
其他文献
组合数学,也叫组合学,这门数学学科最早是和数论及概率计算交叉在一起的,近代由于计算机的出现使得组合数学得以迅速地发展起来,并且成为了一门重要的数学分支。近年来由于其
本文讨论下述奇异拟线性椭圆型的边值问题:  为连续函数,r和q均为正常数,A为参变量.  由于问题(Pλ)所对应的泛函不是Frechet可微的,从而使得我们应用经典的临界点理论来
本文考虑超线性条件下径向对称方程周期解的存在性及多解问题,利用径向对称方程的特性,已经证明可将方程的解降至Ⅳ-2维的情形加以讨论,于是问题的研究可以归结为二维空间上
代数学作为数学的基本支柱,是数学思想和方法的重要源泉。环是代数学的四大基本结构之一,许多的学科也都应用到环的相关理论。环的交换性是研究环性质的一个重要课题,对环的交换
《传染病防治法》所列的39种法定管理传染病中,有25种传染病在临床上出现了明显的阶段染病期特征,其感染和传播特征都会随着时间而发生变化。近些年阶段染病期传染病大规模爆
码分多址(CDMA)是目前最具吸引力的一个光纤网络多址方案,应用前景不可估量.它允许多个用户共享同一光纤信道,并且完全不需要考虑延迟或调度的问题.光码分多址系统的关键技术
针对在n维空间中覆盖n维凸体K所需凸体K的内部的平移的最小数目c(K)不超过2n的HADWIGER猜想,依据c(K)等于覆盖K的边界bdK所需凸体K的位似系数相同的小位似体的最小数目这一核