论文部分内容阅读
目的:本研究的目的旨在通过对TCGA及GEO等共享数据库中的样本信息进行深入的生物信息学分析,筛选DNA甲基化调控的差异表达基因,识别弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)的潜在预后分子生物学标记,构建风险预测模型,并在独立数据集中进行验证,从而为弥漫性大B细胞淋巴瘤的早期诊断及预测预后结局进一步的提供帮助和理论基础。方法:我们从TCGA、GEO和GTEx数据库中下载了弥漫性大B细胞瘤样本和正常对照样本的DNA甲基化数据和临床数据,并构建了基因表达谱。然后使用edge R R包对TCGA数据库中的弥漫性大B细胞淋巴瘤的数据信息和GTEx数据库中的对照样本数据进行差异表达基因的筛选,后获得弥漫性大B细胞淋巴瘤样本与正常样本间的差异表达基因。然后对于TCGA数据库中的弥漫性大B细胞淋巴瘤的450 K DNA甲基化数据进行pearson相关分析,以此构建了弥漫性大B细胞淋巴瘤的基因DNA甲基化谱。同样,将差异基因表达与DNA甲基化基因进行pearson相关分析,得到与弥漫性大B细胞淋巴瘤甲基化负相关的差异表达基因。并将差异表达基因与高、低甲基化基因取交集,选取在DLBCL中高表达且发生低甲基化的基因和在DLBCL中低表达且发生高甲基化的基因进行后续生物信息学分析。随后,使用R cluster Profiler包对基因进行GO功能注释和KEGG通路富集分析,分析其富集到的GO生物学功能和KEGG通路。再结合从TCGA数据库中获得的弥漫性大B细胞淋巴瘤的临床数据,进行单变量COX回归分析,筛选出与弥漫性大B细胞淋巴瘤预后显著相关的基因,通过多变量COX回归系数定义弥漫性大B细胞淋巴瘤样本的风险得分,对样本进行预后分析。最后,得到的预后分子生物学标记,并以此构建预后风险预测模型,并通过GEO数据库中的GSE23501独立数据集信息进行验证。结果:1.首先,通过对弥漫性大B细胞淋巴瘤的数据进行生物信息学分析,结果证实,在弥漫性大B细胞淋巴瘤中,共有370个发生高表达且呈现低甲基化水平的基因,同样发现有143个呈现低表达并伴随高甲基化水平的基因。然后,对这些基因进行GO生物学功能和KEGG通路注释分析后发现,以上370个在疾病中高表达且低甲基化的基因主要富集在nc RNA代谢,核糖体生物合成,基因表达与表观遗传的调控等生物学过程,而没有富集到显著的KEGG通路上;同样以上143个在疾病中低表达且高甲基化的基因主要富集在中性粒细胞活化参与免疫反应,铁离子转运,转铁蛋白运输,嗜中性粒细胞活化及嗜中性粒细胞介导的免疫反应等GO terms上。而通过KEGG通路富集分析发现,其仅显著富集在突触囊泡循环、溶酶体两个KEGG通路上。2.结合TCGA弥漫性大B细胞瘤临床数据,进行COX回归分析后,最终得到了4个与生存显著相关的基因,这些基因分别为:FBXO22,HOMER1,ABCB9,and NT5M,并构建预后风险预测模型。根据风险预测模型计算样本的风险得分,从而将样本分为高低风险组,然后对高低风险组患者绘制生存曲线,结果显示风险评分高的样本组生存率明显低于风险评分低的样本组,并且风险评分可以将DLBCL样本明显的分开,具有良好的预测预后效果(p<0.0001)。随后将风险评分与年龄,性别,stage进行多变量COX回归分析,结果显示,风险评分是一个独立于其他临床因素(年龄,性别,stage)的预后标记。3.在GSE23501基因表达谱数据中,验证预后风险预测评分模型。运用ROC曲线评估了预后风险预测模型在第1、3、5、7年的总生存(OS)准确性,并且和stage,age,gender,亚型等指标进行了效能比较,得到预测模型1年、3年、5年和7年的曲线下面积分别为0.799、0.741、0.68和0.68。结果显示风险预测模型的预后效果较其他临床因子较显著。结论:1.筛选的基因功能主要集中在参与nc RNA代谢、核糖体生物合成、基因表达与表观遗传的调控等;参与嗜中性粒细胞活化及其介导的免疫反应、铁离子转运、转铁蛋白运输等;2.筛选出4个与生存显著相关的基因:FBXO22,HOMER1,ABCB9,NT5M,并构建了风险预测模型3.风险评分高的样本生存率明显低于风险评分低的样本4.风险预测模型是一个独立于其他临床因素(年龄,性别,stage)的预后标记总之,风险预测模型对弥漫性大B细胞瘤的总生存具有良好的预后效果,可进一步为后续的研究提供帮助与理论基础。