基于多信息融合的蛋白质翻译后修饰位点预测研究

来源 :青岛科技大学 | 被引量 : 1次 | 上传用户:tianzhihen1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质翻译后修饰是蛋白质在翻译后发生的化学修饰,在生命过程中起着至关重要的调控作用。深入研究鉴定蛋白质翻译后修饰位点,对揭示生命活动的机理、筛选疾病的临床标志物、鉴定药物靶点等方面具有重要意义。本文基于机器学习和多信息融合对蛋白质翻译后修饰位点进行研究,研究内容如下:1.提出一种新的蛋白质S-亚磺酰化位点预测方法SulSite-GTB。首先,基于多种蛋白质特征信息,包括二肽组成(dipeptide composition,DC)、氨基酸组成(amino acid composition,AAC)、分组重量编码(encoding based on grouped weight,EBGW)、K近邻得分(K nearest neighbors scores,KNN)、位置特异性氨基酸倾向(position-specific amino acid propensity,PSAAP)、位置权重氨基酸组成(position-weighted amino acid composition,PWAAC)和伪位置特异性得分矩阵(pseudo-position specific score matrix,PsePSSM)等进行特征提取,融合七种特征编码信息,得到特征搜索空间。其次,运用SMOTE(synthetic minority oversampling technique)算法对类别不平衡数据进行处理,利用LASSO(least absolute shrinkage and selection operator)算法去除冗余信息得到最优特征子集。最后,将最优特征子集输入到梯度提升决策树分类器中预测S-亚磺酰化位点,运用5折交叉验证和独立测试集方法评估模型的预测性能,训练集和独立测试集的总体预测准确率分别为92.86%和88.53%,AUC值分别为0.9706和0.9425,并与其它预测方法进行对比。结果表明本文提出的方法SulSite-GTB显著优于其它预测方法。2.提出一种新的丙二酰化位点预测模型方法DeepMal。首先采用增强氨基酸组成(enhanced amino acid composition,EAAC)、分组增强氨基酸组成(enhanced grouped amino acid composition,EGAAC)、二肽偏离预期平均值(dipeptide deviation from expected mean,DDE)、K近邻得分(K nearest neighbors scores,KNN)和BLOSUM62矩阵特征提取算法进行特征提取。其次,使用线性卷积神经网络提取丙二酰化位点特异性特征。再次,经过最大池化层来选择相关特征并且降低特征维数。最后,通过多层神经网络对丙二酰化位点和非丙二酰化位点进行分类。在独立数据集E.coli、H.sapiens、M.musculus上,AUC值分别为0.974、0.956和0.944,准确率分别达到96.5%、95.5%和94.5%,相比于其它预测模型,预测准确率提高9.5%-18.5%,进一步表明预测模型DeepMal的有效性。使用深度学习可以提高预测丙二酰化位点模型DeepMal的鲁棒性,并且促进其它蛋白质翻译后修饰位点的预测研究。
其他文献
大卫·施韦卡特(David Schweickart)是美国著名左翼马克思主义学者,西方著名马克思主义理论家,当代西方“市场社会主义”的著名代表人物。施韦卡特一直致力于资本主义批判与
《国家新型城镇化规划(2014-2020)》指出,城市建设用地低效利用、不合理的用地结构与比例失调是必须高度重视并着力解决的突出问题。因此,开展城市建设用地绩效评价,对城市未
支持向量机在小样本数据分类中具有独特的优势,参数的选择对支持向量机的分类精度和泛化能力有着重要的影响,针对当前支持向量机参数优化方法的不足,本文提出了基于改进人工
机器学习中的分类学习旨在利用已知类别的训练样本进行模型的训练,从而能用该模型来预测未知样本的类别。根据样本的不同类别设置,分类任务可分为三大类:二分类,多分类和多标
建筑信息模型(BIM,Building Information Modeling)是指利用数字化技术建立虚拟的建筑工程三维模型,并提供完整的建筑工程信息库。近年来,BIM技术的应用不断深化和扩展,引发
柠檬果实因具有颜色鲜艳、果皮清香、营养丰富、用途宽广等优质特点而广受消费者喜爱。随着国内柠檬种植面积的剧增,为增加柠檬果实的食用价值及拓宽全果用途,需进行进一步的
当今社会正处于大数据时代,各行各业所产生的数据蕴含海量知识。但这些知识具有冗余程度高、特征表达不明显等特点,因此不能直接从中获取有用的知识,这就意味着需要高效通用
近年来,人们一直都在关注能源的可持续发展问题,目前存储和利用热能的主要手段通常有两种:一种是通过塞贝克效应将热能直接转换为电能,另一种是通过声子热器件控制热流。之所
切换系统作为一类重要的混杂系统,它由有限多个子系统以及控制上述子系统激活的切换律组成。因其具有重要的理论意义与广泛的实际背景,切换系统在过去的几十年里备受学者关注
棚户区改造作为一项民生工程,在解决困难群众住房问题、改善居民居住条件、提升城市建设水平等方面发挥了重要作用。但与此同时,棚户区改造中因拆迁安置、物业管理、产权分配