论文部分内容阅读
蛋白质参与和控制了生物体内大部分的生命活动。随着信息科技的不断发展,基于蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)网络的计算分析方法成为蛋白质功能特性研究的重要途径,为系统认识细胞内生命活动的作用机制提供了有效方法,同时对促进生命遗传技术在疾病诊断、治疗和药物开发等方面的广泛应用发挥了重要作用。本文针对PPI网络计算分析的关键问题,分别从静态PPI网络的功能模块检测和动态网络中关键蛋白质检测两部分展开深入研究。静态PPI网络功能模块检测算法研究静态PPI网络的功能模块检测技术的发展一直以来受碍于PPI数据的不完整性和高噪声问题。近年来高通量生物实验技术的发展为PPI研究提供了多方面的补充信息,本文针对融合多信息的PPI网络功能模块检测问题提出了新的方法:1.从多数据的输出融合角度,提出一种基于完全信息表达图模型的功能模块检测算法。该算法针对传统输出层数据融合模型的原始信息丢失问题,构建了一种完全信息表达的图模型,保证聚类集成层面没有任何信息的丢失。同时,该算法中的图划分策略结合了概率角度的解释,能够处理可重叠聚类。实验结果表明,本文所提出方法的检测准确度优于传统方法,多数据源和多聚类模型的有效集成最终得到了一致而稳定检测结果。2.从多数据的模型融合角度,提出一种基于联合非负矩阵分解的一致性功能模块检测算法。该算法以共同基础特征空间向量的线性变换同时逼近原始多视图数据,从而得到了一致的模块聚类结果。多数据集上的实验结果显示,所提出算法在噪声较多、规模较大的数据集上的检测准确度有较大提高,且所得模块的基因本体(Gene Ontology, GO)注释的分析结果表明所检测到的模块具有较高的功能一致性。动态PPI网络特性研究动态PPI网络的研究极具挑战性:首先,基于静态网络结构的传统方法并不适用于动态PPI网络中关键蛋白质的检测问题;其次,关键蛋白质相较于细胞系统内蛋白质的总数是极为少数的部分,这种数量的不平衡也为问题的解决带来较大难度;此外,动态PPI网络系统极为复杂,PPI的动态变化导致不同时间点下蛋白质功能模块的数量、结构和功能都在发生变化。针对以上问题,本文的主要研究内容和创新有:1.基于多源深度置信网络的关键蛋白质检测首先,本文提出一种新的结合蛋白质活性判定和共表达关系的动态PPI网络构建方法,与传统的PPI网络构建方法相比,该方法具有更高的准确性。其次,在所构建的动态PPI网络基础之上,提出了一种基于动态网络结构变化的关键蛋白质检测算法。该算法通过多源深度置信网络对原始动态PPI网络进行共有特征提取并重建通用网络,依据重建误差大小检测网络结构变化最为剧烈的关键结点。与多种方法的比较结果显示,本文所提出的方法重建误差最小,且所检测出的关键蛋白质准确度最高。2.基于贝叶斯图模型的关键蛋白质功能模块动态特性检测通过对蛋白质功能模块的动态特征分析,提出了一种基于贝叶斯图模型的关键功能模块检测算法。该算法通过引入超参数的贝叶斯模型,自适应地判定任意时刻的模块数量,并进一步通过分析动态模块的活性变化找到关键蛋白质模块。通过与多种传统算法的比较验证了该动态蛋白质模块检测算法的准确性,并根据GO注释信息分析了所得检测结果的生物学意义和有效性。