论文部分内容阅读
蛋白质作为生命活动的承担者一直是生命科学领域研究的重点。由于实验方法确定蛋白质结构的速度已远远落后于蛋白质序列增长的速度,使得蛋白质三维结构预测的研究变得越来越重要。大量的研究表明,蛋白质的结构虽然多种多样,但是折叠类型的数量却是有限的,目前SCOP数据库和CATH数据库显示蛋白质的折叠类型总数都是一千多种。对蛋白质折叠类型进行研究相比于直接研究蛋白质三维结构将变得精准且容易。蛋白质折叠类型识别即是针对蛋白质折叠类型的研究,是蛋白质三维结构预测的一种方法。本文以SCOPe数据库中的四类蛋白α类、β类、α/β类、α+β类为研究对象,建立了一种基于氨基酸序列的蛋白质折叠类型识别方法。该方法提高了折叠类型识别的样本覆盖范围,且获得了较高的识别精度。本文的主要工作包括:1.建立家族模型集和扩充家族模型集以四类蛋白质中的家族为单位,为每一个晶体结构样本不少于两个的家族进行多结构比对,利用比对信息建立隐马尔科夫模型。组成以家族为代表的蛋白质折叠类型识别模型集,简称家族模型集。并在此基础上对家族模型集进行扩充形成了扩充家族模型集。2.建立超家族模型集和扩充超家族模型集以四类蛋白质中的超家族为单位,为每一个晶体结构样本不少于两个且能进行多结构比对的超家族建立隐马尔科夫模型。形成以超家族为代表的蛋白质折叠类型识别模型集,简称超家族模型集。并在此基础上进行扩充形成扩充超家族模型集。3.模型识别效果检验利用SCOPe-2.05和SCOPe-2.06数据库中的数据构造了四个检验集,对所建立的四个模型进行检验。家族模型集和超家族模型集对四大类蛋白质的折叠类型的样本覆盖率分别达到86%和68%,对于其涵盖的样本在折叠类型上识别的准确率分别达到97%和94%以上。两个扩充模型集的样本覆盖率均达到97%,识别的准确度分别在95%和93%以上。4.实现自动化识别依据所建的四个模型集建立了一个蛋白质折叠类型识别的数据库。功能包括自动化识别待测蛋白序列的折叠类型和对模型集进行更新。本文以SCOPe数据库中的四类蛋白为研究对象,建立了家族模型集、扩充家族模型集、超家族模型集、扩充超家族模型集,用以对蛋白质序列进行折叠类型识别。并实现了折叠类型识别的自动化操作。本文的研究对样本的覆盖范围广且识别的准确度高。