论文部分内容阅读
生物大数据使得关于生物机制的研究可以从数据分析的角度入手,多方面揭示分子调控机制。然而海量的高通量数据也给数据分析带来了难度。与此同时,生物功能的复杂性也要求使用更合适的建模方式,以准确地描述分子机制内部复杂的结构。网络方法能够描述分子相互作用,以图的形式展现分子调控系统。而粒度计算理论广泛应用于提取系统结构,有助于从不同层次理解分子如何通过协同实现具体的生命过程。本文基于粗粒化思想,结合网络分析方法认识疾病动态发展过程中的分子调控机制,主要探讨了肺腺癌预测基因的选取、小鼠Ⅱ型糖尿病发展机制和结肠癌血行转移过程中循环癌细胞(CTC)、自然杀伤细胞(NK细胞)和血小板之间的通讯网络。主要内容如下:在第二章中,为了提取预测基因用于对肿瘤与正常样本进行分类,本章提出一种基于格兰杰因果关系检验和逐步特征选择的预测基因选择方法,其设计目标是最大限度提高分类精度和减少预测因子数量。首先,基于甲基化、基因表达和miRNA表达数据构建基因相互作用网络,并通过差异表达分析获得差异基因。进一步,通过网络分析,选取中心节点作为特征基因。最后,利用格兰杰因果检验和皮尔逊相关检验对特征基因进行筛选;提出基于随机森林分类模型的逐步特征选择算法,用于从特征基因集中识别最终的预测基因。最终得到6个预测基因:TOP2A、GRK5、SIRT7、MCM7、EGFR和COL1A2。将算法应用于6个独立验证集以检验模型的鲁棒性。最终得到的预测精度最低95.3%最高100%,表明所提方法在分类肺腺癌和正常样本上的能力,这对于缩短临床诊断时间具有重要意义。在第三章中,基于时间序列基因表达数据,探索小鼠Ⅱ型糖尿病(T2D)的动态演变过程。提出针对疾病演变过程的分析框架,称为VD-analysis。具体地,传统的动态网络方法将疾病发展过程看作由多个帧组成的“动画”,其中每个帧代表疾病的一个暂时状态,用一张基因-基因相互作用网络(GGN)表示。然而,动态网络方法也存在缺陷,即未能分析两个相邻状态之间的演化关系。本文所提出的VD-analysis框架对动态网络方法进行了改进。具体地,对每个暂态网络进行模块识别操作并量化相邻暂态GGN中模块的进化关系,进而推测疾病的内在驱动机制。另外,VD-analysis首次采用三基因结构——V-结构——作为单元代表整个模块,揭示在疾病发展过程中的关键分子调控机制。结果表明,小鼠T2D在驱动通路分布上大致可以分为三个阶段:前期、转移时期和后期,并对应每个阶段识别出V-结构标志物。综上所述,VD-analysis能够描述动态疾病进展,并且,V-结构的生物标志物有助于疾病的治疗。在第四章中,同时考虑细胞内特异性网络和细胞间通讯网络,研究结肠癌转移过程中CTC、NK细胞和血小板间的信号传递机制。首先,根据每个细胞的表达基因的差异,构建胞内特异性基因相互作用网络。其次,对于两个细胞,将两个胞内特异性网络根据配体-受体相互作用关系进行连接,形成整体的细胞通讯网络。进一步,改进了基于层次聚类的模块提取算法,将其应用于识别胞内特异性网络。最后利用随机游走计算两细胞中模块的关联性。模型找到了各个细胞负责释放信号及接受外界信号发挥功能的模块和关键配体-受体关系,并利用逐步特征选择算法提取了能够区分结肠癌转移样本和正常样本的预测基因,即LIMK2、ARHGEF6、F2RL1和ITGA8,预测精度可达98.42%。ROC曲线也表明了该预测模型的有效性(AUC=0.78)。综上所述,考虑到分子调控机制的整体性,同时分析胞内和胞间分子相互作用关系对于研究癌转移过程中细胞间功能协同具有重要意义。