论文部分内容阅读
随着生物数据的大爆发,生物序列的数量在数据库中呈指数形式增长。因此,从氨基酸序列中预测蛋白质的结构和功能,已经成为一个重要的研究问题。直接通过实验的方法确定蛋白质的结构,相对比较低效。对蛋白质二级结构和功能进行预测已成为生物信息学中的一个常用方法。本文围绕蛋白质二级结构编码方式和支持向量机核函数等内容,对蛋白质二级结构预测进行了研究,具体的研究工作如下:(1)给出了一种新的蛋白质二级预测编码方式。首先对氨基酸的理化特性进行主成分分析,提取出主要影响因素,融合成3位编码。然后,在原有3位编码基础上加入3位氨基酸在特定二级结构中的倾向因子。编码完成后,使用支持向量机方法进行预测。实验结果表明,改进后的编码方式优于单纯做主成分分析得到的3位编码和5位编码方式,可以有效地用于蛋白质二级结构预测。(2)对于蛋白质二级结构预测的支持向量机算法,构建出一种新的核函数来提高模型的鲁棒性和泛化能力。通过广义的拉盖尔多项式衍生出三角拉盖尔核函数,并比较三角拉盖尔核函数、RBF核函数和基于高斯的拉盖尔核函数的泛化能力和鲁棒性,实验结果验证了该核函数的有效性。本文通过编码方式和预测方法的改进,提高了蛋白质二级结构的预测结果,并通过实验验证了改进方法的合理性。