论文部分内容阅读
蛋白质结构预测在生物信息学研究中占有重要地位,而蛋白质二级结构预测是蛋白质结构预测的关键步骤。本文结合氨基酸序列的编码方式,介绍了几种改进BP算法在预测蛋白质二级结构中的应用,并对网络的学习过程及结果进行分析和评价。主要研究内容及成果如下:
(1)首先了解蛋白质一级及二级结构的种类,并掌握其表示方法。从蛋白质数据库中随机选取58条蛋白质,对它们的氨基酸序列和对应二级结构特征进行提取和表示,为整个研究提供了原始数据;
(2)对已获取的氨基酸序列及其二级结构进行编码,为神经网络训练和测试提供输入、输出数据。设计编码方法时,考虑其可能对神经网络的结构、运算能力以及最终预测精度的影响,提出了4种氨基酸序列的编码方式,讨论它们结合神经网络预测蛋白质二级结构时存在的问题及优点;
(3)基于标准BP算法在预测时存在的缺陷,介绍了3种改进BP神经网络,从原理出发分析了它们改进的具体内容、改进以后可能出现的特点以及相比较于标准BP算法有哪些优点;
(4)结合各种编码方式和不同神经网络实现蛋白质二级结构的预测,给出各种组合下得到预测结果并予以分析。提出一种新的改进方法,即遗传算法结合动量法与学习率自适应调整策略的BP神经网络。实验表明,基于正交编码方式的这种神经网络预测可以得到较高的准确度,可将蛋白质二级结构的预测准确度提升到74.35%。
本课题得到了国家自然科学基金(NO.60234020)的支持。