论文部分内容阅读
随着人类基因组计划的完成,生命科学的研究重点逐步的从基因组学转向蛋白质组学,人类进入后基因组时代。蛋白质组学的研究重点是蛋白质的结构与功能,而蛋白质的结构决定了蛋白质的功能,因此,对蛋白质结构的研究成为后基因组时代的重点。另一方面,近年来由于对各类蛋白质测序工作的顺利开展,越来越多的蛋白质一级结构(组成蛋白质的氨基酸序列)被测定,并存储在各大生物数据库中,这些序列数据以指数级别增长,而蛋白质空间结构的测定却受到各种因素的影响而进展缓慢,这就造成越来越多的蛋白质只知道其一级结构却不知道其空间结构。在这种情况下,利用计算机技术对蛋白质结构进行预测被提出,并得到广泛研究。研究过程中发现,很难从蛋白质的一级结构直接预测空间结构,蛋白质的二级结构概念被提出。蛋白质的二级结构作为一级结构和空间结构的过渡,被用来描述蛋白质的局部空间结构。这样就将蛋白质的结构预测分为两个方向:由一级结构预测二级结构和由二级结构预测空间结构,其中前者是研究重点。文本主要研究内容是由蛋白质的一级结构预测其二级结构。蛋白质二级结构的预测一般分两个步骤:编码阶段和预测模型构造阶段。编码阶段又可称为特征编码或特征提取,按照一定的编码方式将蛋白质序列编码成固定长度的特征向量;模型构造阶段主要是构造适当的预测模型,用经过编码的蛋白质序列的进行训练和预测。本文将从这两个方面进行改进,提出一种基于深度学习的蛋白质二级结构预测方法。在蛋白质特征编码阶段,本文提出了一种基于伪氨基酸组分(PseAA)的蛋白质特征提取方法,将蛋白质序列编码成一个30维的特征向量,该特征向量中既包含了蛋白质的氨基酸组分(AAC),又包含了描述序列局部信息的近似熵特征、描述序列物化性质的疏水模式特征以及描述蛋白质序列的基于图像的同源性特征。本文的预测模型采用的是深度学习的一个常用模型:深度置信网(DBN),由5层深度玻尔兹曼机(DBM)和一个分类层网络组成。5层DBM相邻两层组成一个受限玻尔兹曼机(RBM),从而形成4个RBM,分类层采用softmax分类器。预测模型的训练包括两个过程:自下而上的预训练过程和自上而下的微调过程,预训练是一个非监督学习过程,采用逐层贪婪算法,自下而上逐层训练每一个RBM;微调过程则是采用BP算法自顶向下微调网络参数。实验结果表明:本文所提出的预测模型对于蛋白质二级结构的预测具有很好的可行性和有效性,尤其是同源性较低的蛋白质序列,预测精度可媲美与当前最好的预测模型。