论文部分内容阅读
从蛋白质的一级序列得到其对应的三维结构是目前生物信息学领域重要的课题之一。计算机预测方法被广泛应用于蛋白质二级结构的研究,其发展过程大体分为两个阶段:第一个阶段以数理统计作为出发点,基于单个氨基酸信息,如Chou-Fasman和GOR(Garnier-Osguthorpe-Robson)方法;第二个阶段基于进化信息,主要利用BLAST等工具在序列数据库中对搜索序列进行多重比对以取得同源信息PSSM(特异位点打分矩阵)利用PSI-BLAST取得相应的进化信息PSSM。本实验致力于氨基酸特性对基于PSSM预测方法的改进和预测准确率的提高。
以SVM(支持向量机)作为实现手段,在PSSM基础上分别添加疏水因子和HEC(螺旋、折叠、无规则卷曲)倾向性两种理化因子作为单个氨基酸的特征值对蛋白质二级结构进行预测。本实验还同时设计对SVM使用进行改进方法实现双层SVM,即通过理化因子和双层SVM工具两种方法共同达到提高蛋白质二级结构预测准确率的目的。实验结果经相关系数分析表明,添加的疏水因子和HEC倾向性对Q3微弱正相关,与SOV值显著正相关。它证明氨基酸的疏水性与HEC倾向性对蛋白质二级结构的形成起到一定作用。通过双层SVM实验,无论是准确率的绝对值还是相关系数分析,双层网络都在二级结构预测的准确率上占有优势,改进的SVM对其预测过程起到明显的优化作用。预测的准确率的Q3值和SOV比目前国际常用的PSSM方法分别提高了2.76%和1.25%。