论文部分内容阅读
生物信息学的主要任务是从急剧增加的生物序列数据中提取新的知识。蛋白质数据库是生物序列数据库的重要组成部分。目前从直接测得或者从DNA序列翻译出来的蛋白质序列数量急剧增长,蛋白质数据库中已知一级结构的蛋白质数量已经大大超过了已经测定空间三维结构的蛋白质数量,所以目前希望完全依靠实验手段来逐一确定它们的空间结构的想法是不现实的,无论是来自资金方面的还是时间方面的限制都不能让生物学家完成这一工作。
与DNA序列不同,蛋白质是生命的具体表现形式。蛋白质所处的环境比DNA序列复杂得多,它的一级结构即氨基酸序列的排列顺序并不能完全确定其本身的生物和化学特性,二级结构和三维结构在蛋白质活动过程中同样起到了相当关键的作用。所以如何通过已知的蛋白质一级序列的信息,快速地得到其二级结构和三维结构的相关信息,已经成了人们研究的重要方向。
本文构造了一种新的方法预测蛋白质二级结构的类型,属于α、β还是αβ类型。该方法使用了BP神经网络,通过一种新型的描述蛋白质一级结构的向量CMV构造网络的训练集,训练神经网络。最后使用神经网络的输出建立了一个决策系统预测蛋白质二级结构的类型。为了提高训练速度,文中也对神经网络的并行计算进行了讨论。