论文部分内容阅读
蛋白质的功能与其亚细胞定位有着密切的联系,通过亚细胞定位预测往往能获取蛋白质功能和结构的信息,因此对于确定一个未知特性蛋白质的功能,研究其亚细胞定位有着非常重要的意义。蛋白质亚细胞定位在生物制药、基因和细胞治疗等领域有着重要的应用。采用实验方法确定亚细胞定位需要耗费大量的人力,物力及时间,随着数据库中蛋白质序列数目的急剧增加,从已积累的知识和数据出发利用智能计算的方法对其进行预测就成为当前的重要研究任务。
利用智能计算的方法对蛋白质亚细胞定位进行预测一般包括三个步骤:首先建立一个客观的有代表性的数据集,并进行序列编码;其次利用智能计算的技术设计有效的预测算法;最后应用预测算法对蛋白质亚细胞定位进行预测并对预测结果作适当评价。本文内容按照这三个步骤展开,主要研究成果如下:
(1)亚细胞定位数据集的构建和序列编码。以SWISSPROT 51.2 版蛋白质数据库为基础,通过筛选及分类,建立了一个具有一定代表性的10类亚细胞定位数据集,并通过氨基酸词频分析的方法进行了序列编码。
(2)亚细胞定位预测算法设计。文中对粒子群算法PSO进行改进,提出了一种寻优性能较好的速度可调节粒子群算法AVPSO,并将PSO及AVPSO算法与BP神经网络相结合,构造了预测蛋白质亚细胞定位的新方法:PSO-BP和AVPSO-BP算法,通过实验证明该方法取得了较好的预测结果。
(3)对所构建数据集进行了序列分析。为进一步研究蛋白质序列,从两方面对本文所构建数据集进行了序列分析。首先对20种氨基酸在亚细胞中出现的频率进行统计,分析了各类亚细胞中氨基酸出现频率的特点和规律。然后对10类亚细胞中的氨基酸含量进行分析,并与本文的预测实验结果相对比,进一步解释和分析了预测实验的结果,同时为蛋白质结构和功能研究提供更多的信息。