基于序列和PPI网络的蛋白质功能预测方法研究

被引量 : 0次 | 上传用户:lx7792414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质功能预测是后基因组时代生物信息学研究中最具挑战性的任务之一。目前,大量蛋白质氨基酸序列(简称“序列”)和蛋白质相互作用(Protein-Protein Interaction,PPI)数据的积累,为揭示蛋白质功能提供了基础条件。本文从蛋白质序列和PPI出发,对基于序列的蛋白质功能预测、蛋白质功能相似性计算、PPI网络构建和基于PPI网络的蛋白质功能预测等计算问题进行深入研究,并取得了一些创新性的成果。本文主要包括以下四个方面的内容:(1)提出基于序列结构域组成的蛋白质功能预测方法现有的计算方法往往需要利用除序列之外其它生物学信息才能预测蛋白质的功能,因此难以预测仅仅具有序列信息的蛋白质的功能。由于结构域是蛋白质中的保守序列片段,是其功能、结构和进化的基本单位,广泛地存在于蛋白质中,并且蛋白质的结构域组成信息容易被获取,所以本文以蛋白质序列的结构域组成信息为基础,设计一种预测蛋白质功能的计算方法。该方法首先研究结构域和GO(Gene Ontology)术语之间的关联关系,并提出利用对称的条件概率方法度量它们之间的关联强度。接着,根据术语的语义关系扩展结构域与术语之间的关联关系。最后,以结构域与术语之间的关联关系为基础,结合蛋白质序列的结构域组成信息预测其功能。与同类方法相比较,本文所提出的蛋白质功能预测方法具有较高的召回率和精确度。此外,该方法直接利用蛋白质的序列特征进行功能预测,不受其它生物学特征信息的限制。(2)提出基于GO术语语义的蛋白质功能相似性计算方法GO术语被广泛用于描述蛋白质的功能。通过GO术语语义比较蛋白质的功能相似性,对于预测蛋白质功能及其功能信息的迁移十分有益。因此,基于GO术语语义计算蛋白质功能相似性的问题受到了广泛关注。现有的蛋白质功能相似性计算方法往往忽略术语之间的语义重叠关系,从而导致计算存在不可预知的误差。针对这一问题,本文提出了一种新的蛋白质功能相似性计算方法。首先,根据语义详尽程度和覆盖度计算术语的语义信息量。然后,将术语语义分为继承语义和扩展语义两部分,并以此为基础计算术语集合的语义信息量。最后,通过术语集合之间的语义重叠率来度量两个蛋白质之间的功能相似性。与同类方法相比较,本文所提出的方法获得了更准确的计算结果,能够为判断蛋白质之间的功能相似性提供更可靠的依据。(3)提出基于结构域相互作用的PPI网络构建方法蛋白质往往通过与其他蛋白质相互协作来执行某一功能。研究PPI网络能帮助人们从系统层面理解蛋白质的功能。然而,现有的PPI数据中存在大量的假阳性和假阴性数据,阻碍了从系统层面研究蛋白质的功能。为此,本文设计了一种基于结构域相互作用构建PPI网络的方法。首先,从蛋白质中共现结构域的组合中筛选结构域相互作用。然后,基于结构域相互作用挖掘潜在的PPI以扩展原网络。接着,重新分析扩展网络中的PPI并识别跨蛋白质的结构域相互作用。最后,基于跨蛋白质的结构域相互作用重新评估PPI的可靠性,剔除扩展网络中的假阳性PPI。与传统方法相比较,本文所提出方法可以构建较为全面、可靠的PPI网络。该方法可以用于构建新的PPI网络,也可用于重构已有的PPI网络。(4)提出基于PPI网络的蛋白质功能预测方法从PPI网络层面研究蛋白质功能可以较为系统、全面地了解蛋白质的功能机理,也是蛋白质功能研究的热点之一。现有的方法通常认为相互作用的蛋白质具有相同的功能。实际上大多数相互作用的蛋白质之间存在功能差异。为此,本文设计了一种基于PPI网络的蛋白质功能预测方法。该方法首先将相互作用的蛋白质之间的关系抽象为主-被动关系,然后根据主-被动关系筛选处于同一通路的GO术语注释相互作用的蛋白质,并设计迭代算法在相互作用网络中预测蛋白质功能。从预测的精确度、召回率和F值三个指标来看,基于PPI网络的蛋白质功能预测方法的综合性能优于同类方法。
其他文献
近年来,大数据在现代农业领域的应用越来越广泛,发挥的作用也越来越重要。一、大数据的特征和农业应用领域(一)大数据的特征大数据最主要的特征之一就是数据信息量大、处理难
期刊
区域在经济全球化的进程中占据重要作用,京津冀地区作为我国三大区域之一,在国家区域发展战略中占有重要位置,近年来得到政府的重视和支持。文章以地区间专业化指数和产业份
我国不仅洪涝灾害频繁,而且水资源短缺和水环境、水生态恶化问题突出。依赖科技进步,充分发挥水利工程尤其是水库的作用,在确保防洪安全的前提下,充分发挥水资源的社会、经济
在模拟和混合信号电路中,运算放大器是非常重要的基本模块,决定着电路或系统的总体性能。本文主要完成了CMOS rail-to-rail运算放大器的分析与设计。首先,在设计中采用两对单
为研究泄漏电流与相对空气湿度和污秽度的关系,以人工雾室内的大量人工污秽试验为依据,试验研究了瓷制绝缘子表面泄漏电流随相对空气湿度及污秽程度的逐步提升而不断增长的规
中国儒家文化是在远古的巫术礼仪的“乐”和“礼”中孕育的,在汲取“阴阳五行”和“天人合一”的思想精华中得以形成,逐步深化和不断丰富,最终由宋明理学集其大成而加以辩证
本文系统考察了两次鸦片战争期间中国的英语翻译发展变化的过程和内容,总结分析了该时期英语翻译的特点,论述了英语翻译的历史作用。本文认为:两次鸦片战争期间的中国英语翻
随着计算机网络的飞速发展,网络渗透,敏感信息盗取等攻击行为每天都发生在我们的身边。信息安全的矛与盾,攻击与防御技术总是互相促进的。Rootkit技术是攻击者用来保持对系统
脑多头蚴病是由多头绦虫的幼虫寄生于家畜所引起的疾病,人也可感染,但相对较少。该病通常对动物是致命的,给世界许多地区的养殖业造成了巨大的经济损失。论文主要介绍了不同药物
当前,我国社会组织承接政府购买项目仍处于起步阶段,而北京市作为政府购买公共服务迅速发展的地区,其政府购买的实践亦不可避免地存在诸多问题。通过对北京市海淀区B机构承接