论文部分内容阅读
蛋白质功能预测是后基因组时代生物信息学研究中最具挑战性的任务之一。目前,大量蛋白质氨基酸序列(简称“序列”)和蛋白质相互作用(Protein-Protein Interaction,PPI)数据的积累,为揭示蛋白质功能提供了基础条件。本文从蛋白质序列和PPI出发,对基于序列的蛋白质功能预测、蛋白质功能相似性计算、PPI网络构建和基于PPI网络的蛋白质功能预测等计算问题进行深入研究,并取得了一些创新性的成果。本文主要包括以下四个方面的内容:(1)提出基于序列结构域组成的蛋白质功能预测方法现有的计算方法往往需要利用除序列之外其它生物学信息才能预测蛋白质的功能,因此难以预测仅仅具有序列信息的蛋白质的功能。由于结构域是蛋白质中的保守序列片段,是其功能、结构和进化的基本单位,广泛地存在于蛋白质中,并且蛋白质的结构域组成信息容易被获取,所以本文以蛋白质序列的结构域组成信息为基础,设计一种预测蛋白质功能的计算方法。该方法首先研究结构域和GO(Gene Ontology)术语之间的关联关系,并提出利用对称的条件概率方法度量它们之间的关联强度。接着,根据术语的语义关系扩展结构域与术语之间的关联关系。最后,以结构域与术语之间的关联关系为基础,结合蛋白质序列的结构域组成信息预测其功能。与同类方法相比较,本文所提出的蛋白质功能预测方法具有较高的召回率和精确度。此外,该方法直接利用蛋白质的序列特征进行功能预测,不受其它生物学特征信息的限制。(2)提出基于GO术语语义的蛋白质功能相似性计算方法GO术语被广泛用于描述蛋白质的功能。通过GO术语语义比较蛋白质的功能相似性,对于预测蛋白质功能及其功能信息的迁移十分有益。因此,基于GO术语语义计算蛋白质功能相似性的问题受到了广泛关注。现有的蛋白质功能相似性计算方法往往忽略术语之间的语义重叠关系,从而导致计算存在不可预知的误差。针对这一问题,本文提出了一种新的蛋白质功能相似性计算方法。首先,根据语义详尽程度和覆盖度计算术语的语义信息量。然后,将术语语义分为继承语义和扩展语义两部分,并以此为基础计算术语集合的语义信息量。最后,通过术语集合之间的语义重叠率来度量两个蛋白质之间的功能相似性。与同类方法相比较,本文所提出的方法获得了更准确的计算结果,能够为判断蛋白质之间的功能相似性提供更可靠的依据。(3)提出基于结构域相互作用的PPI网络构建方法蛋白质往往通过与其他蛋白质相互协作来执行某一功能。研究PPI网络能帮助人们从系统层面理解蛋白质的功能。然而,现有的PPI数据中存在大量的假阳性和假阴性数据,阻碍了从系统层面研究蛋白质的功能。为此,本文设计了一种基于结构域相互作用构建PPI网络的方法。首先,从蛋白质中共现结构域的组合中筛选结构域相互作用。然后,基于结构域相互作用挖掘潜在的PPI以扩展原网络。接着,重新分析扩展网络中的PPI并识别跨蛋白质的结构域相互作用。最后,基于跨蛋白质的结构域相互作用重新评估PPI的可靠性,剔除扩展网络中的假阳性PPI。与传统方法相比较,本文所提出方法可以构建较为全面、可靠的PPI网络。该方法可以用于构建新的PPI网络,也可用于重构已有的PPI网络。(4)提出基于PPI网络的蛋白质功能预测方法从PPI网络层面研究蛋白质功能可以较为系统、全面地了解蛋白质的功能机理,也是蛋白质功能研究的热点之一。现有的方法通常认为相互作用的蛋白质具有相同的功能。实际上大多数相互作用的蛋白质之间存在功能差异。为此,本文设计了一种基于PPI网络的蛋白质功能预测方法。该方法首先将相互作用的蛋白质之间的关系抽象为主-被动关系,然后根据主-被动关系筛选处于同一通路的GO术语注释相互作用的蛋白质,并设计迭代算法在相互作用网络中预测蛋白质功能。从预测的精确度、召回率和F值三个指标来看,基于PPI网络的蛋白质功能预测方法的综合性能优于同类方法。