论文部分内容阅读
关键蛋白质是细胞生命活动所必需的蛋白质,是生物体生存和繁殖不可或缺的一部分。关键蛋白质的识别不仅对于生命科学的研究具有重要意义,而且对于疾病诊治和药物设计也具有重要的应用价值。在后基因组时代,随着高通量技术的发展,可获得的蛋白质相互作用数据日益丰富,基于蛋白质相互作用网络的蛋白质识别方法受到越来越多人的关注。本文的主要研究工作如下:1)深入分析关键蛋白质测度参数DC,BC,CC,SC,EC, IC, BN, DMNC,SoECC和LAC,并将这些测度参数分别应用于酵母蛋白质网络,实验结果表明仅仅依靠蛋白质网络的识别方法对网络的依赖性较强,缺少对于网络噪声(例如假阳性相互作用)的容错能力。2)针对单纯依靠节点中心性测度识别关键蛋白质对于网络可靠性依赖性较大这一问题,本文利用边聚集系数测度节点的共簇程度,利用皮尔逊相关系数测度蛋白质/基因共表达的程度,提出了一种融合蛋白质网络拓扑特性和基因表达数据来识别关键蛋白质的中心性测度参数PeC。基于酵母蛋白质网络的实验结果表明,相较于其他关键蛋白质识别方法,该方法具有较高的准确度。3)考虑到大部分物种已有部分已知关键蛋白质,本文利用部分已知关键蛋白质作为先验知识,通过计算网络中关键性未知的蛋白质与先验知识的亲密程度确定候选关键蛋白质集合,提出利用先验知识和边聚集系数ECC迭代识别关键蛋白质的方法CPPK和利用先验知识和PeC测度参数识别关键蛋白质的方法CEPPK。基于酵母蛋白质网络的实验结果表明,在一定的样本水平内,CPPK和CEPPK具有较好的识别准确度。融合蛋白质网络和基因表达数据的关键蛋白质识别方法为关键蛋白质的识别提供了新思路。