论文部分内容阅读
通过分析测量数据来预测复杂系统的临界现象是生产生活中亟待解决的问题,为此人们开发出了临界点理论;为了适应生物信息领域中以基因芯片为代表的高通量表达谱技术所产生的数据,在临界点理论的基础之上又发展出了动态网络标志物理论。它依据测量数据在每一个测量时间点上分别建立模型网络;通过寻找在临界点处展现出一定统计特征的子网络,即动态网络标志物子网络,来预测临界现象。动态网络标志物理论在预测病情的发展,探索疾病机制等等方面中有很大应用价值。高通量表达数据中的庞大信息量,启发我们从信息提取的角度来看待与之相关的问题;而以Page Rank算法为基础的搜索引擎,是信息提取问题最成功的解决方案之一。故而在此研究中,我们以互联网领域中的Page Rank算法为核心,基于生物信息领域中的动态网络标志物理论,设计了一个临界点探测算法。为了验证我们的算法,我们采用了随机生成的具有临界意义的高维模拟数据集合进行检验;这相比于文献中维数不超过20的模拟数据集合更加有说服力。另外我们也将该算法应用于相关文献中分析过的数据集合之上,并得到了与文献相一致的结果到目前为止,文献中基于动态网络标志物理论的算法仍存在一项不足:尽管该理论是针对高维数据集合而提出的,但是由之设计出来的算法仍然不能完全覆盖高通量表达数据集合的观测变量数目。在建立模型网络之前,总是需要基于差异表达对观测变量进行激进的预筛选,通过预筛选的观测变量往往不足十分之一;然而理论本身并未涉及差异表达,这意味着算法和理论尚不完全契合。我们的算法提高了通过预筛选的观测变量数目,在一定程度上缓解了此项不足。