蛋白质二级结构预测准确率影响因素探讨

来源 :河北大学 | 被引量 : 1次 | 上传用户:lxh272787054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从蛋白质的一级序列得到其对应的三维结构是目前生物信息学领域重要的课题之一。计算机预测方法被广泛应用于蛋白质二级结构的研究,其发展过程大体分为两个阶段:第一个阶段以数理统计作为出发点,基于单个氨基酸信息,如Chou-Fasman和GOR(Garnier-Osguthorpe-Robson)方法;第二个阶段基于进化信息,主要利用BLAST等工具在序列数据库中对搜索序列进行多重比对以取得同源信息PSSM(特异位点打分矩阵)利用PSI-BLAST取得相应的进化信息PSSM。本实验致力于氨基酸特性对基于PSSM预测方法的改进和预测准确率的提高。   以SVM(支持向量机)作为实现手段,在PSSM基础上分别添加疏水因子和HEC(螺旋、折叠、无规则卷曲)倾向性两种理化因子作为单个氨基酸的特征值对蛋白质二级结构进行预测。本实验还同时设计对SVM使用进行改进方法实现双层SVM,即通过理化因子和双层SVM工具两种方法共同达到提高蛋白质二级结构预测准确率的目的。实验结果经相关系数分析表明,添加的疏水因子和HEC倾向性对Q3微弱正相关,与SOV值显著正相关。它证明氨基酸的疏水性与HEC倾向性对蛋白质二级结构的形成起到一定作用。通过双层SVM实验,无论是准确率的绝对值还是相关系数分析,双层网络都在二级结构预测的准确率上占有优势,改进的SVM对其预测过程起到明显的优化作用。预测的准确率的Q3值和SOV比目前国际常用的PSSM方法分别提高了2.76%和1.25%。
其他文献
本文将WEB数据管理系统与skyline三维GIS软件相结合,构建了一个基于B/S架构的山洪预警系统。通过系统各功能模块的功能实现及技术解决方案,最终在windows平台上开发了一个具有
学位