论文部分内容阅读
目的本研究通过从肿瘤基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中筛选分析肺腺癌组织与癌旁组织差异表达的非编码RNA(long non-coding RNA,LncRNAs),目的在于分析肺腺癌相关的LncRNAs,为进一步研究肺腺癌组织中差异表达倍数明显增高的LncRNAs的生物学功能奠定基础。同时筛选与肺腺癌预后有关的LncRNAs,分析肺腺癌组织预后相关的LncRNAs表达高低对生存的影响。方法(1)从TCGA数据库中筛选535例肺腺癌组织和59例癌旁组织的LncRNAs的数据信息及肺腺癌患者的详细临床资料,使用R语言的edger包进行LncRNAs的差异性分析,筛选标准为校正后的P<0.01且差异表达倍数>2(FDR<0.01且|logFC|>2)为差异具有统计学意义的LncRNAs,同时根据差异表达倍数的对数值分析得到在肺腺癌组织中表达上调及表达下调的差异LncRNAs。(2)利用得到的差异LncRNAs联合TCGA数据库中肺腺癌患者的生存数据,用survival包行单因素COX回归分析,按照P<0.05的标准分析得到与死亡风险相关的LncRNAs。(3)为了减少过拟合情况,使用glmnet包和survival包行Lasso回归分析,选取交叉验证误差最小的λ值作为最佳参考值,筛选得到更精确的与死亡风险相关的LncRNAs。(4)将上述筛选得到的LncRNAs利用survival包行多因素COX回归,计算每个LncRNAs风险比(hazard ratio,HR)、95%的置信区间和P值,根据P<0.05选择有统计学意义的预后相关的LncRNAs,同时联合使用survminer包绘制森林图,可以直观看到预后相关的LncRNAs。(5)对上述所得有统计学意义的LncRNAs进行分析,绘制Kaplan-Meier生存曲线,分析每1个LncRNAs高低表达量对生存率的影响。结果(1)本研究从TCGA数据库筛选出535例肺腺癌组织和59例癌旁组织分析得到差异表达的LncRNAs共有1657个,其中表达上调的LncRNAs有1472个,表达下调的LncRNAs有185个。(2)对差异表达的1657个LncRNAs行单因素COX回归分析,按照P<0.05标准筛选到86个与死亡风险相关的LncRNAs。(3)为进一步压缩目标死亡风险相关LncRNAs行lasso回归分析(P<0.05),筛选得到更精确的与死亡风险相关的LncRNAs有48个。(4)对死亡风险相关的48个LncRNAs行多因素COX回归分析(P<0.05),得到有统计学意义的预后相关LncRNAs共有11个。(5)将预后相关的11个LncRNAs利用survival包进行分析,绘制每个LncRNAs的Kaplan-Meier生存曲线,直观可见同一LncRNAs高表达和低表达在肺腺癌患者的生存率分析中无明显差异,Kaplan-Meier生存曲线提示差异无统计学意义。结论(1)PRKCA-AS1、AC104823.1、AP000542.2、LINC01929、CCAT1、AC090164.2、AP000317.2、AC106874.1、AC106729.1、AP002892.2、AC004801.5为患者预后相关LncRNAs。(2)根据Kaplan-Meier生存曲线分析预后相关的每个LncRNA,其表达量的高低均对患者生存率无明显影响。