论文部分内容阅读
在后基因组时代,随着数百个物种的全基因组测序的完成以及基因组注释信息的日益完善,可以较可靠地从基因组信息重建物种特异的代谢网络。系统地分析代谢通路和代谢物之间如何作用,将有助于理解和利用细胞的代谢过程,并能促进发酵技术和医药工程的发展;对进化过程中不同物种代谢网络拓扑结构的分析和比较,可以帮助我们了解生命进化的历史和规律。因此从拓扑结构上分析代谢网络的特性,进而分解代谢网络、发现功能模块和保守模式、推算进化距离等研究正成为当前国内外本学科研究的重要课题。本文从研究代谢网络拓扑特性和节点中心性出发,运用复杂网络理论、图论和数学方法,对代谢网络中功能模块挖掘和进化分析进行了深入研究,主要研究工作和成果包括:应用复杂网络理论和图论技术对不同物种的代谢网络进行拓扑特征分析和节点中心性分析,包括节点的度分布、聚集系数和特征路径长度等参数,发现不同物种代谢网络的一些共性特征,为设计更好的代谢网络分解、比较、挖掘算法提供依据。针对大多数层次聚类算法无法识别实际复杂网络中存在的交叠模块这一缺陷,提出了一种度量模块间连通性的指标,并在此基础上设计了一种发现交叠模块的快速层次化算法F-HOC。将F-HOC算法与目前可以发现交叠模块的层次化算法进行比较,实验结果表明对于社团结构明显的复杂网络,该算法具有更好的敏感度,更高的运行效率。随着大规模网络数据的不断增加,该算法的运行时间增长幅度不大,比目前可以发现交叠社团的层次化算法更适合应用于大规模的复杂网络。为了可以从整个网络的角度实现对代谢通路的分析,并避免组合爆炸问题,在F-HOC的基础上提出了基于社团连通性的代谢网络分解算法CMD。该方法根据代谢网络的拓扑特性对F-HOC进行改进,可以识别出代谢网络边缘的单条长路径。将算法应用到E.coli代谢网络的分解中,实验结果表明此算法不仅能够有效识别交叠的功能模块,较准确地标识出数据库中的代谢通路,还可以通过自底向上的合并过程来体现层次化组织结构的功能模块,同时不会遗漏网络中的边缘长路径。针对以往集合论的网络比较方法仅考虑节点本身的特性这一缺陷,本文提出了一种全新的整体网络比较方法MWD,能同时考虑到节点在网络拓扑结构属性方面的差异。该方法采用主成分分析和小波变换的方法来比较代谢网络,计算相似度,由此推算出两物种间的进化距离。应用MWD方法分析109个物种网络间的相似度,结果表明该算法能有效地比较网络,借助比较结果,可以揭示代谢网络的物种特异性,并为代谢网络的进化研究提供数学基础;将该方法计算出来的各个物种与模式生物的进化距离,与用集合论的方法计算出来的Jaccard距离进行比较,结果显示用该方法计算出来的误差较小,说明了该方法的合理性。针对基于Apriori思想的频繁子图挖掘算法计算复杂度高,很难应用于大规模代谢网络的不足,本文提出了挖掘代谢网络的闭合频繁子图算法MaxFP,用于发现代谢网络的保守模式。此算法与基于Apriori的频繁子图挖掘算法进行比较,实验结果证明此算法的运行效率非常高,并且能找到更多的具有生物意义的频繁子图。论文有效地解决了代谢网络中结构与功能、进化关系研究中存在的一些问题。提出的算法不仅运行效率较高,而且其结果从统计意义上被证明具有较强的生物意义,对生物相关实验和研究具有一定的指导意义。此外,论文提出的算法对其他具有相似结构的复杂网络也具有普遍意义。