论文部分内容阅读
二十世纪末,随着大量的蛋白质序列和核酸序列涌入公共数据库,人类进入了后基因时代。生物信息学作为后基因时代的核心技术,目的是分析和解读蛋白质和核酸序列中所表达的关于结构和功能的信息,而蛋白质的功能与其亚细胞定位是密切相关的,所以蛋白质亚细胞定位的预测也成为后基因时代的重点研究内容。本文研究的是凋亡蛋白的亚细胞定位预测问题,凋亡蛋白是一类与很多疾病有关的蛋白质,获得凋亡蛋白的亚细胞定位信息有利于细胞凋亡机制和凋亡蛋白功能的研究,同时有助于新药的开发和了解疾病产生的机理。进行凋亡蛋白的亚细胞定位预测,首先根据凋亡蛋白的亚细胞位置的不同建立凋亡蛋白数据集,这是进行凋亡蛋白亚细胞定位预测的第一步工作,蛋白质序列特征提取和分类算法也是凋亡蛋白亚细胞定位预测中决定识别精度的关键性问题。本文基于UniPortKB/Swiss-Port数据库建立了六类真核凋亡蛋白数据集apoptosis-887;提出了基于序列N-端、C-端的位点氨基酸频数分布信息和物化特性紧邻二联体频数信息的一种新的序列特征提取方法;分别采用多样性增量方法、支持向量机方法、多样性增量结合支持向量机的方法和组合分类器方法对凋亡蛋白数据集apoptosis-887的亚细胞位置进行预测,在5-fold交叉检验下,各个分类器的识别总精度分别为68.77%、75.87%、76.44%和79.26%,可以看出采用组合分类器取得了比单分类器好的预测效果。研究表明:(1)从凋亡蛋白质一级序列出发,可采用多维组合特征来表征凋亡蛋白质序列,多种特征参数融合的特征提取策略可以提高预测结果精度;(2)N-端和C-端的位点氨基酸频数分布信息是凋亡蛋白序列的一种主要特征参数;(3)采用组合分类器,融合各分类器的优点,减小各参数之间的分歧,可以有效的提高识别精度。