论文部分内容阅读
生物信息学是一门交叉学科,是应用信息科学的理论、方法和技术来管理、分析和利用生物分子数据。通过收集、组织、管理生物分子数据,使研究人员获得或者方便地使用相关信息。生物信息学以计算机,网络为工具,采用数学和信息科学的理论、方法和技术去研究生物大分子,其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。
蛋白质结构预测是生物信息学研究中的重要课题之一。而蛋白质二级结构预测是蛋白质结构预测中的重要组成部分,能为蛋白质的空间结构预测提供许多结构信息。在基于机器学习的二级结构预测方法中,神经网络的预测方法一直是一个研究热点,该方法提高了预测准确率,但是也存在着以下的问题:对当前位置的残基预测无法引入序列远距离信息。改进的预测方法是首先进行多序列比对找到待测蛋白质序列的同源信息作为输入信息,这样的改进是基于已知的家族蛋白质进行的。毫无疑问还有很多不属于任何家族的未知蛋白质,因此基于全局比对的神经网络方法也不能完全解决以上的问题。
本文从上面提到的问题入手,对经典的神经网络预测模型结构做了改进,建立了一个可以不用基于蛋白质同源家族进行信息提取的RBF神经网络预测模型,以期望提高预测的准确率。在对蛋白质序列用隐马尔可夫链模型(HMM)进行结构信息提取时,无需同源信息,也使模型预测时能引入了序列远距离信息,提高了对低同源和无同源蛋白质的预测可能性及预测精度。
本文还建立了一个生物信息学系统,并对预测结果和数据进行了预测评价,并提出了下一步的研究工作重点。