论文部分内容阅读
随着DNA微阵列技术、高通量测序技术的不断延伸和迅猛发展,产生了许多的基因表达谱数据、分子相互作用数据、基因组数据。这些数据在研究基因突变、基因识别、基因分型和癌症分型诊断等方面有着重要的实用价值。同时,由这些数据组成的基因调控网络也为从网络层次上探索生物基因关系提供了支撑条件,对癌症共调控网络的研究也有助于理解癌细胞组织内部致癌基因的产生过程和基因分子之间的调控关系。本文针对癌症共调控网络,基于miRNA/TF/mRNA表达谱数据集,提出了两种共调控功能模块识别算法。首先,传统的生物功能模块识别算法忽略了关键调控因子可能参与到多种生理过程中所形成的重叠性问题,本文提出了一种基于重叠谱聚类的共调控模块挖掘算法OSC(Overlapping Spetral Clustering)。该算法首先在使用皮尔逊相关系数分析的基础之上,应用经验贝叶斯理论构造准确度较高的共调控相互作用网络。其次使用特征间隙方法自动确定识别出的最佳聚类数目,避免人工设定阈值的弊端,保证整个算法框架的自适应性。然后使用凝聚式分层谱聚类方法得到非重叠的功能模块。最后提出目标重叠度函数对跨越不同模块的边进行重叠判断,根据最大内部聚集、最小外部连接准则挖掘出重叠性的共调控功能模块。实验结果表明,相比于与NJW、SNMNMF算法,OSC能够发现更多miRNA/TF/mRNA之间的协同调控作用,并且挖掘到的共调控功能模块具备更加显著的功能富集意义。其次,随着基因表达谱数据规模逐渐增加,普通模块识别算法在运行过程中存在搜索空间大、运行时间长的问题,本文提出了一种基于爆炸搜索策略的模块识别算法RMCL-ESA(Regularized Markov Cluster&Explosion Search Algorithm)。该算法首先采用改进马尔科夫过程对基因表达谱数据集进行预处理,通过扩展、膨胀、修剪三个子过程对网络中的节点进行过滤。该过程能够使网络中强连接更强,弱连接更弱,并删除冗余基因,使得后续的运算处理过程更加迅速,节约存储空间。然后基于miRNA和转录因子对靶基因的特殊调控模式,采用两阶段的爆炸搜索方式进行模块识别。在第一阶段,在全局搜索空间内寻找能够作为烟花弹的节点中心簇;在第二阶段,向中心簇的邻域靶基因贪婪搜索,寻找满足适应度函数的功能模块。经过实验,相比于与NJW、SNMNMF算法,RMCL-ESA算法得到的功能模块包含更多显著生物功能和调控通路。同时,通过对GOES和KEGGES富集分值进行累计经验分布分析、结合患者临床样本对模块进行生存分析,发现RMCL-ESA算法能够挖掘到大量包含较高富集程度的共调控模块,且在OVCA数据集中能够显著的将病患区域分开,具备显著生物意义。