论文部分内容阅读
目的: 了解基因调控网络在不同疾病状态下的改变对于阐明疾病机制和识别疾病有关驱动基因具有重要意义。本研究首先通过模拟研究评价整合先验信息的差异网络分析方法pDNA(Prior information-dependent differential network analysis)在识别差异网络时的效能。并将其应用于乳腺癌不同分子分型的基因表达和甲基化数据中,找出乳腺癌分型相关基因,期望为临床诊断治疗、靶向药物的研发提供一定依据。 方法: 介绍pDNA的基本原理和步骤,将其与DiffCorr、PNJGL(perturbed-node joint graphical lasso)进行比较。模拟研究中设置变量数p为100,扰动基因数为4;样本量n=50、100、200;扰动节点驱动的差异边的比例ρ1=0.3,0.5,0.7,每个平台所特有的差异边的比例 ρ2=0.1,产生 6 个平台的数据。通过计算精度(Precision)和召回率(Recall),绘制精 度-召回率曲线,评价不同参数设置情况下三种方法的表现。实例分析中,将包含358个病例、833个基因的乳腺癌不同分型的基因表达和甲基化数据用 MATLAB 软件进行分析,绘制差异网络,并寻找与乳腺癌分型有关的中心节点(hubs),并将筛选出的中心节点纳入logistic回归模型,进行10折交叉验证,绘制ROC曲线。 结果: 整体来看,几乎所有参数设置情况下,pDNA都优于PNJGL和DiffCorr。pDNA构建差异网络的性能受到网络密度和变量数的影响,网络密度和样本数越大, pDNA的表现越好。乳腺癌分型数据经pDNA绘制的加权差异网络中包含562个节点、1041 个边. 将网络中节点度(degree)排名前 10 的基因定义为中心节点。其中有 7 个(YWHAG、PRKCG、CHUK、ATF2、PIK3RT、TSC1、NR4A1)已经报道与乳腺癌有关,AUC为0.85(0.81,0.90)。 结论: pDNA不但通过非参数正态分布放松了对数据正态性的要求,还能有效利用先验信息,并且同时分析多平台数据,是一种较为理想的差异网络分析方法。乳腺癌不同分型数据间的差异网络中,中心节点不但发现并验证了已知的乳腺癌相关调控基因,还提供了一定的预测信息,FGF13可能与乳腺癌分型和预后有关,其作用需要进一步研究。