论文部分内容阅读
蛋白质的氨基酸序列如何决定空间结构是当今生命科学研究中的核心问题之一,被称为第二遗传密码。由于实验测定的费时和费力,使得从蛋白质的氨基酸序列出发理论预测它的结构成为21世纪生物学的首要任务。大量实验和理论研究表明,蛋白质的三级结构是非常复杂而不规则的,但其整体折叠类型却十分有限,一般认为只有数百到数千种,远小于蛋白质所具有的自由度数。折叠类型反映了蛋白质核心结构的拓扑模式,它是从蛋白质结构的基础层次——二级结构单元出发进行的一种描述,包括了蛋白质二级结构单元、二级结构单元的相对排布位置和整个多肽链的路由关系。随着蛋白质结构数据库趋于完备,序列-结构问题便可以转化为折叠识别问题,即找到与未知蛋白质序列在三维结构上最匹配的已知折叠类型。对自然界存在的数百到数千种折叠类型进行系统分类和识别,将有助于揭示蛋白质的折叠规律。本文通过对蛋白质折叠类型的研究,以结构核心的拓扑连接和空间排布为依据,建立了统一原理的蛋白质折叠类型数据库LIFCA,为蛋白质折叠识别奠定了基础。主要研究内容包括:
⑴从ASTRAL-1.65数据库中选取序列一致性小于25%的非冗余子集,包含α、β、α/β类蛋白共2406个,根据折叠核心二级结构片段的空间排布和拓扑连接,进行蛋白质折叠类型分类,对于序列、二级结构等信息提供了详细的注释。LIFCA包含259个折叠类型,覆盖了SCOP中244个折叠子。
⑵为解决LIFCA数据库中36个折叠类型无法建立统一模型的问题,根据蛋白质结构差异量化指标RMSD,建立了折叠类型内部样本的两两距离关系,通过系统聚类方法生成了176个折叠子类。为LIFCA-HMM库的完善奠定了基础,也为蛋白质分类研究拓展了新的方法和思路。
⑶对71个折叠类型与176个折叠子类中的样本分别进行MUSTANG结构比对,训练出247个Profile-HMM模型,形成完整的LIFCA-HMM库。
⑷以序列一致性小于95%的Astral-1.65序列库为检验集,单模型及全模型库的折叠识别检验精度均很高。为了评价所用方法的识别性能,我们引入ROC分析,结果理想。