蛋白质亚细胞定位预测研究与应用

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:jingfei1415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质亚细胞定位预测在识别未知功能的蛋白质序列,确定基因组标注,药物靶标发现中都有重要的意义和作用。伴随计算机和生物技术的蓬勃发展,由高通量实验积累的生物数据按几何数增加,传统的生物学实验方法已经难以满足科研需求,因此本文采用机器学习的方法来对蛋白质亚细胞进行定位预测研究。以往的研究证明将不同的特征提取方法和不同的预测算法进行组合应用到不同的标准数据集上会产生迥异的预测结果。为了得到最优的预测组合,分两步进行研究:(1)为了找到最优的序列特征提取算法,通过主成分分析法(PrincipalComponent Analysis,PCA)对基于基因本体(Gene Ontology,GO)的序列特征进行压缩,提出PCAGO特征。选取多个单一特征和基于GO的组合特征提取方法进行对比实验。实验结果显示PCAGO特征结合伪氨基酸组成法(Pseudo-amino acid composition,PseAAC)提取的序列特征在单标记数据集上的预测准确率普遍较高。为了找到最优的预测组合,将基于GO的最优组合特征作为输入,分别送入支持向量机(Support Vector Machine,SVM)、BP神经网络和K近邻(K-NearestNeighbor,KNN)三个分类预测算法进行亚细胞定位。综合实验结果可以看出将SVM预测算法和PCAGO+PseAAC的组合特征提取方法结合的预测模型在单标记数据集上表现出了最明显的优势。随着蛋白质组学研究的深入,实验发现许多蛋白质并不是只处在一个亚细胞上,即证实了多位点蛋白质(Multi-location Protein)的存在。由于多位点蛋白质发现时间短,数据积累不足,技术限制等因素,使用机器学习方法对多位点蛋白质亚细胞进行定位预测研究的时间并不长。为了提高蛋白质亚细胞多点定位预测的准确率,本文提出了一种改进的多目标学习径向基神经网络算法(RBF Neural Networks for Multi-Label Learning,ML-RBF),即CL-RBF算法。具体改进方向如下所示:(2)ML-RBF采用传统的K-means方法计算隐层中心,在隐层中心个数选取上,K-means表现出了较大的随机性和不可靠性。本文通过引入轮廓系数(Silhouette Coefficient)优化隐层中心个数。以往对隐层中心的优化只着眼于单个标记内,从而忽略了标记间隐层中心的相互影响。本文提出当同属两个不同标记的样本数量较少时,不同标记间的隐层中心距离也应尽可能大。遵循此原则,对不同标记间的隐层中心距离小于某一阈值的情况,隐层中心需要重新调整。为了消除ML-RBF训练过程中引起的误差,结合多位点蛋白质的特点,采用自适应地梯度下降算法调整ML-RBF参数。为了提高预测结果的准确性,提出一种基于聚类优化的结果集调整策略,依据测试样本与标记L的隐层中心和不属于标记L的样本生成的聚类中心的欧式距离差,调整预测结果。最后,为了考察CL-RBF在蛋白质亚细胞多点定位预测中的性能,选取其他四种多目标学习算法进行对比试验,综合考虑不同评价指标,我们发现CL-RBF在四个多标记数据集上的表现最佳。此外,为了使研究成果便于观察和使用,本文基于SVM算法和改进的ML-RBF算法编写了两个蛋白质亚细胞定位预测系统。
其他文献
随着精密制造技术在更多领域的广泛应用,微纳定位系统逐渐成为学术界和工业界的研究热点。在微纳定位系统当中,驱动器作为极其重要的组成部分,它的性能直接影响了整个系统的
这项研究提出了三个研究问题:2015年石油冲击对家庭收入的影响如何?这种影响取决于家庭的就业和生活条件吗?2015年石油衝撃對家庭食品支出有何影響?為此,使用了涵蓋2010年,20
双渐开线齿轮是一种综合了渐开线齿轮和双圆弧齿轮优点的新型齿轮,其齿廓由两段呈分阶布置的渐开线和一段圆弧包络线过渡曲线构成。目前关于双渐开线齿轮的研究,主要集中在齿
近年来,药品质量与安全生产已经深入人心。制药反应釜是制药工业中的关键设备,具有转速低、介质压力波动大、搅拌轴偏摆严重等特点,其轴端密封既是保证釜内介质洁净度,防止药
冷成型钢房屋建筑作为一种新型建筑结构体系,具有用钢量少、抗震性能好、绿色环保、施工效率高等优点,在国内应用已越来越多,其抗火性能一直是冷成型钢结构研究的重点。与此
随着生活水平的提高,人们对室内环境舒适性的要求不断增加,暖通空调设备及系统得到了广泛的应用。传统的通风供暖方式(如上送式和下送式)存在送回风气流短路、室内温度分层严
在物流运输中,运输包装系统可视为“产品-包装-运载体”组合结构。逆子结构方法可以预测“产品-包装-运载体”组合结构中产品的动态特性,因而在运输包装领域得到了快速发展。
水泥基材料的耐久性问题一直是当前研究的重点和热点内容,而氯离子在水泥基材料内的传输问题更是耐久性核心问题。传统电阻率法常用于测定氯离子扩散系数,而这些方法均会产生
面形精度测量是射电望远镜建造与运行的关键技术之一,随着天线口径越来越大,微波全息测量已成为大型射电望远镜面形精度测量的常用方式。然而,基于同步卫星的窄带微波全息测
城市轨道交通工程作为国家的重要基础设施,不论是发展规模,还是发展速度,在世界的排名上都可以名列前茅。然而在带来交通便利的同时,它在施工过程中往往也伴随着比较大的安全