论文部分内容阅读
随着新一代高通量测序技术的发展与应用,基因组学、转录组学等各种组学数据出现急剧增长。一方面,这些生物数据为从网络水平系统研究各种生物分子的功能提供了契机。另一方面,如何有效利用和集成各种组学数据并挖掘有价值生物信息仍是一大挑战。由miRNA、转录因子和目标基因组成的共调控网络是目前系统生物学研究的一个热点,而共调控网络中的功能模块作为细胞功能实现的主要载体,对理解生物体的分子机制和复杂疾病的发病原理具有重要意义。本文在考虑共调控网络拓扑特性的基础上,融合多种生物组学数据,提出了两种共调控网络中的功能模块识别方法。首先,考虑到目前调控网络中较少将转录因子视作调控靶基因的调控子,而现有功能模块识别算法不能对共调控网络中的转录因子及其调控关系进行有效识别的问题,提出一种新的基于非负矩阵分解的功能模块识别算法SNCoNMF。该方法首先采用联合非负矩阵分解策略集成miRNA、转录因子和基因的表达谱数据;接着在此基础上引入共调控网络正则化约束项:miRNA-gene、TF-gene调控关系和gene-gene相互作用网络,使得有边相连的因子分在同一个模块的概率更大;最后考虑到共调控网络以及非负矩阵的稀疏性,给目标函数加入稀疏惩罚项。与算法SNMNMF相比,所提方法在人类共调控网络中预测的共调控功能模块富集的转录因子更多,更能体现共调控功能模块中miRNA和转录因子的协同调控作用。其次,针对共调控网络比较稀疏,而且算法SNCoNMF识别的功能模块密度较小的问题,提出基于网络节点关联度的启发式算法NPWCN。首先利用LASSO方法对共调控网络进行加权,在构建带权网络时整合了 miRNA、转录因子和基因的表达谱数据,提高了网络的可靠性。接着,鉴于关键调控子在共调控网络居于主导地位,采用线性规划识别带权共调控网络中的关键调控子,并将其作为种子节点。最后,以种子节点为核,以功能模块平均节点关联度为目标函数,进行邻居节点扩充,得到最终的功能模块。实验结果表明,算法NPWCN比另两种算法预测的共调控功能模块的密度更大,联系更为紧密,且具有较强的生物意义。