论文部分内容阅读
蛋白质是基因表达的产物,生命活动的重要物质基础,几乎参与所有的生命活动和生物过程。研究发现,大多数蛋白质不能独立地执行生物功能,而是通过相互作用以协作的方式发挥其生物功能。日前,随着蛋白质相互作用数据的不断积累和完善,复杂生物网络中蛋白质相互作用网络逐渐成为系统生物学研究的热点问题之一。本文利用蛋白质相互作用网络,就蛋白质复合物的挖掘、关键蛋白质的识别、致病基因的预测等热门问题进行了较为深入的研究,具体研究如下:1.基于蛋白质复合物“核-附属物”的内部结构及核内蛋白质高度共表达的新发现,提出了一种基于基因共表达的蛋白质复合物挖掘算法。首先,根据编码相互作用蛋白质的基因之间存在共表达的特性,本文利用基因表达数据,构建了带权的蛋白质相互作用网络。然后,从边的角度选择权重大的边作为种子,识别出蛋白质复合物的核蛋白质。最后,根据为每个蛋自质复合物的核识别附属蛋白质,与核一起形成蛋白质复合物。2.结合已有关键蛋白质识别算法的优点,本文提出了一种基于局部连通强度的关键蛋白质识别算法。算法利用关键蛋白质往往对应着蛋白质相互作用网络中的高度蛋白质这样的事实,从源节点出发根据局部连通度的大小逐步逼近网络中的核心节点,以此识别山蛋白质网络中的高度关键蛋白质;然后,根据网络中蛋白质节点的局部中心性,识别蛋白质相互作用网络中处于稀疏区域的关键蛋白质。该算法既能识别蛋白质网络中处于稠密区域的关键蛋白质,又能识别蛋白质网络中稀疏区域的关键蛋白质,有效地提高了关键蛋白质识别的准确度。3.研究发现,关键蛋白质往往聚集于蛋白质复合物或功能模块,本文也对标准蛋白质复合物数据集进行了统计,结果发现超过60%的蛋白质复合物中都有关键蛋白质的存在。基于这种发现,并结合蛋白质复合物的“核-附属物”内部结构,提山了一种基于关键蛋白质的蛋白质复合物挖掘算法。首先,关键蛋白质节点为中心,根据一阶连通强度进行第一次扩展识别核蛋白质。然后,根据二阶连通强度为每个蛋白质复合物的核识别附属蛋白质,并与核一起生成蛋白质复合物。实验结果显示,本文提出的算法能够有效地从蛋自质网络中挖掘蛋白质复合物。4.研究发现,相同或相似疾病的致病基因所编码的蛋白质倾向于在蛋白质相互作用网络中聚集。基于这种发现,本文提出了基于功能流的致病基因识别算法,根据基因与蛋白质问的对应关系,利用蛋白质相互作用网络识别致病基因。文章首先基于基因本体GO计算基因之间的功能相似性,构建了带权的人类蛋白质相互作用网络,并将已知的致病基因以及同在一个关联区域的候选基因映射到蛋白质网络中。然后,以已知致病基因为源点模拟功能流算法过程,计算网络中每个蛋白质(基因)获得来自致病基因的功能得分。最后,根据功能得分对关联区域的候选基因进行排序,排序靠前的基因被认为更可能成为致病基因。总之,本文基于蛋白质相互作用网络的实际应用展开研究,利用蛋白质相互作用,基因表达、基因本体等生物数据,分别从边和点的角度设计了两种蛋白质复合物挖掘算法,基于连通强度设计了一种关键蛋白质识别算法,基于功能流思想设计了一种致病基因预测算法,并在真实数据集上进行了实验分析,结果显示本文提出的算法是有效的。