论文部分内容阅读
蛋白质的相似性比对方法通常被用于蛋白质的比较和分类,以此注释和理解功能未知的蛋白质。然而自然界中大量的多结构域蛋白质往往降低了这些传统比较方法的有效性,因为由于某些广泛存在的结构域,在比对过程中经常将许多非同源关系的蛋白质连接起来或者产生信息过剩的显著性匹配结果,从而带来不合理的蛋白分类以至不正确的功能注释。
针对这一问题,本论文描述了一种新的基于蛋白质结构域架构的蛋白质比较方法(CPDA方法)。该方法的提出源于蛋白质在结构域水平上的进化关系假说,即具有一致的或者近似于一致的结构域架构的蛋白质,与那些只有部分结构域架构相似或者在结构域排列顺序上不一致的蛋白质相比,更有可能是同源蛋白,即直源蛋白或者并源蛋白。CPDA方法从两个蛋白质共有结构域的内容,排列顺序以及重复次数三个方面对多结构域蛋白进行比较,使用了三个不同的指标Jaccard指数,Goodman-Kruskalγ函数和DomainDuplicate指数分别从这三个方面给出测度值,并添加权重系数将它们整合成为一个分值作为两个蛋白质的相似性测度。而且,为了比较一组蛋白质,我们基于CPDA的计算公式定义了一个蛋白质架构距离,并利用距离聚类分类方法对给定的一组架构构建树状关系图。
为了验证CPDA方法的可行性和有效性,我们使用KOGs数据库(真核直源蛋白分类数据库)作为基准进行了验证。得到两个结论:一,KOGs中的结构域架构关系与CPDA方法的理论假设是相一致的;二,CPDA方法能够很好的解决发生在传统蛋白质比较方法中的,由多结构域蛋白所引起的过剩匹配的现象,可以自动的有效的完成多结构域蛋白质的比较过程。而且,在文章中通过比较含有杂凑结构域的一组多结构域蛋白以及含有逆序排列结构域对的一组蛋白质,进一步的证明了CPDA方法可以清晰有效的比较蛋白质的优点。
另外,为了方便用户使用CPDA方法比较感兴趣的蛋白质,我们建立了一个网络服务工具Pdart(Proteindomainarchitectureretrievaltool),。可以满足用户使用结构域的PfamID,蛋白质的UniProtID以及蛋白质分类的KOGID对感兴趣的结构域架构进行查询和比较。Pdart所提供的关于蛋白质结构域架构的树状关系图,可以帮助用户进一步理解这些架构之间以及相关蛋白质之间的关系。
蛋白质结构域是蛋白质功能、结构和进化的单元。如果只是单纯的考虑序列的相似性,而不能将它与蛋白质的功能单元,结构域和模体,连结在一起,那么往往就会导致错误的蛋白质功能注释。CPDA方法,这种基于蛋白质完整的结构域架构对蛋白质进行比较的方法,不但能够从结构域的水平上理解蛋白质之间的关系,而且可以自动的清晰的完成蛋白质的比较,是对多结构域蛋白质进行比较和分类的理想方法。