乳腺癌相关新关键基因和生物学通路的生物信息学识别

来源 :苏州大学 | 被引量 : 0次 | 上传用户:c543217896chenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症对世界各地的人类健康有多种影响,它是仅次于心血管疾病的全球第二大死亡原因。全世界范围内不同地区的癌症发病率和死亡率不同,尤其是在不同国家之间,因为人口、生态、文化、环境和遗传变量等因素的差异会导致癌症发病率的异质性。根据最新的全球癌症数据,2018年癌症新增1810万例新病例,960万例死亡病例。其中前列腺癌、胃癌和肝癌在男性中最为常见,而乳腺癌、宫颈癌和甲状腺癌在女性中最为常见,肺癌和结直肠癌在两者中都具有较高的患病率。癌症的发病率最高的前三位是肺癌、乳腺癌和结直肠癌,它们的死亡率排名分别为第一、第五和第二。全球乳腺癌发病率自20世纪70年代末一直呈上升趋势,是全世界女性癌症死亡的第二大主要原因,99%发生在女性,男性仅占1%,约占女性所有癌症的26%。早期乳腺癌往往不具备典型的症状和体征,不易引起重视,常通过体检或乳腺癌筛查发现。与乳腺癌相关的危险因素有肥胖、酗酒、更年期激素替代疗法、电离辐射、月经初潮、晚育或不生育、年龄大、患乳腺癌的既往史、家庭乳腺癌史、缺乏体育锻炼等。乳腺癌是一种恶性肿瘤,是由某种基因突变导致的异常细胞的无节制增殖所致,这种基因异常通常发生在乳腺导管(连接乳腺与乳头的导管)或乳腺小叶(分泌乳汁的部分)中。随着科技时代日新月异的发展以及人们对乳腺癌认识的不断深入,乳腺癌的治疗进入了综合治疗时代,形成了局部治疗与全身治疗并重的治疗模式。医生会根据肿瘤的分期和患者的身体状况,酌情采用手术、放疗、化疗、生物靶向治疗等多种手段。外科手术在乳腺癌治疗中发挥着重要作用。但较其缺点来说——把病人体内肿瘤切除,并不能直接“消灭”肿瘤,也不是战胜癌症的良方。控癌是场持久战,不能单独地“一刀切”来解决问题。放疗是利用放射线破坏癌细胞的生长、繁殖,达到控制和消灭癌细胞的作用,但放射性在破坏和杀死肿瘤细胞的同时,对周围正常组织细胞也有破坏作用。手术、放疗均属于局部治疗。化学治疗是一种应用抗癌药物抑制癌细胞分裂,破坏癌细胞的治疗方法,简称化疗。化疗也可能会导致患者出现消化道反应,引起恶心、呕吐、头晕以及食欲不振等。分子靶向治疗是近年来最为活跃的研究领域之一,与化疗药物相比,是具有多环节作用机制的新型抗肿瘤治疗药。因此,更好地应用已发布的生物标志物、发现新的生物标志物以及潜在的治疗靶标对改善乳腺癌的预后和治疗至关重要。人表皮生长因子受体2(HER2)和雌激素受体α(ERα)常常被用于预后和激素治疗反应预测中,是目前最有效的乳腺癌生物标志物。但是,由于某些乳腺癌亚型并不表达ER α或HER2,因此需要应用其他生物标志物。然而,目前并没有发现其他生物标志物与靶向治疗的之间是否存在精准的关联。因此,迫切需要评估潜在的新生物标志物,以用于乳腺癌的诊断和治疗改善。癌症的发生率随着年龄的增长而增加,因此癌症的预防和治疗以及慢性病的管理已成为影响社会经济发展的关键因素。生物医学和信息技术的快速发展,以及主动健康、精准医疗和大数据范式的出现,为癌症的预防和治疗带来了新的机遇。本课题的研究方向包括癌症的异质性和外部综合征、癌症深度表型的挖掘、用于癌症治疗的联合用药算法、癌症的预防和治疗信息模型和慢性病的管理以及系统和平台构建。基于此,本研究的目的是通过生物信息学的方法来评估潜在的新基因作为乳腺癌诊断的生物标志物和药物靶标,并了解其分子机制,改进乳腺癌的治疗策略。首先,通过比较8个乳腺癌组织和相应对照组织的基因表达谱,我们检测到236个具有统计学意义的差异表达基因(包括167个上调基因和69个下调基因)。以adj.P.Val<0.01和logFC>1作为上调基因的阈值,adj.P.Val<0.01和logFC<-1作为下调基因的阈值,绘制火山图。根据| logFC |的值绘制热图。前20个上调的差异表达基因包括C2、IFITM1、AKR1C1、PCDH7、TIMP3、TDO2、AKR1C1、PMEPA1、IRF9、AQPI、KNDC1、OAS3、DDX60、FAM105A、DDX60、AQP3、IFI27、IFI44L和FN1;下调的差异表达基因包括EVL、CLDN1、CREB5、FBX015、CASP4、NOC2L、ATF6B、RELB、CCDC74B、MATN3、POLR3E、OSR2、CITED4、CASP4、LINC01016、C14orf37、TCTN1、CDADC1、CFAP206 和 C5orf45。为了了解筛选出的差异表达基因的生物学功能和意义,本研究使用了可用于注释、可视化和集成发现的DAVID数据库。使用在线工具“DAVID”对候选差异表达基因进行GO功能富集分析(基因本体论(Gene Ontology,GO)是一种广泛用于整合生物学的方法,它为大规模的基因注释编写结构化、定义化和规范化的词汇)和KEGG途径分析(京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)将差异表达基因集的特定通路分配给具有高阶功能信息的关键数据)。Count≥2和EASE>0.1作为筛选标准将上调和下调差异表达基因分别上传DAVID上,进行GO分析(在GO中,功能富集分析包括三类:生物过程(Biological Process,BP),细胞成分(Cellular Component,CC)和分子功能(Molecular Function,MF))和KEGG分析(KEGG通路数据库是一种基因功能分类工具,为科研人员分析基因的生物学作用提供了一个功能注释工具,分析基因的生物学功能,可用于差异表达基因的KEGG通路分析)。本研究从生物过程(Biological Process,BP),细胞成分(Cellular Component,CC)和分子功能(Molecular Function,MF)这三个方面对差异表达基因的功能进行了富集分析。分析表明,上调的差异表达基因显着富集了 48个BP,12个CC和14个MF,而下调的差异表达基因显着富集了 15个BP,5个CC和6个MF。蛋白质相互作用对于理解肿瘤的代谢和分子机制至关重要。STRING数据库是一个用于检索蛋白质相互作用的在线数据库,提供了经实验验证以及预测蛋白质相互作用的信息。STRING v11数据库包括来自5090种生物的24,584,628个蛋白质;3,123,056,667个蛋白质相互作用,这是STRING v10之前版本的两倍数据。String数据库提供了蛋白质相互作用的关键评估与集成,包括直接(物理)和间接(功能)关联。我们利用STRING数据库构建差异表达基因的PPI网络,得到181个节点和234条边,平均节点度为2.59,期望边数为86,PPI富集p值小于1.0e-16。STRING数据库旨在收集评分和整合所有可公开获得的蛋白质相互作用信息来源,并通过计算预测来补充这些信息。将分析结果导入Cytoscape软件中,构建并显示蛋白质相互作用关系网络,并分析关键蛋白质。下载并安装Cytoscape中的插件“cytoHubba”。cytoHubba对蛋白质相互作用网络的节点进行分析,可用于识别网络中的关键基因。根据cytoHubba中的五种方法:度法(Degree,Deg)、瓶颈法(BottleNeck,BN)、介数法(Betweenness,BC)、应力法(Stress,Str)和聚类系数法(Clustering Coefficient,CC)筛选基因,度法是基于局部的方法,瓶颈法、介数法和应力法是基于全局的方法。一方面,计算节点度仅考虑该节点与其直接邻居之间的关系;另一方面,全局方法分析节点与整个网络之间的关系。最后,根据PPI网络中排名靠前的基因,从以上五种方法中,分别鉴定出具有PubMed引文的前3位,5位和8位基因作为关键基因。这些基因在PubMed引文中涉及前3位基因的86%,前5位基因的85%,前8位基因的83%。根据PPI网络中排名前8位的节点,最终,我们得到了 24个关键基因,包括STAT1、EGR1、OAS1、FN1、SLC02A1、HPGD、TIMP3、OAS2、IRF9、OAS3、RSAD2、IFIT3、REC8、TRIP13、NQ01、AKR1C1、NT5E、NR2F1、RELB、ATF6B、BCL11A、CENPN、TP53INP1、ANGPT1。联合靶向STAT1和STAT3用于发展免疫性肿瘤治疗下调PD-L1表达。大约72%的乳腺癌是雌激素受体α阳性(ER;ESR1)。许多人用抗雌激素治疗。EGR1是乳腺癌细胞代谢的重要调节因子,是预防或逆转内分泌抵抗的理想靶点,FN1是miR-200b调控化疗抵抗的新靶基因,miR-200b是乳腺癌细胞化疗诱导EMT的重要调节因子。通过对microRNA结合位点单核苷酸多态性的系统病例对照研究,发现中国妇女HPGD中一个新的乳腺癌风险变异rs8752。TIMP3对肿瘤坏死因子信号的调节可能是肿瘤发生发展的一个重要步骤,这一点在PyMT和新的乳腺癌模型中都有体现,他们认为TIMP3在乳腺中的作用是重要的,它对乳腺癌的发生发展有着不可忽视的重要影响。IRF9的过表达参与调控人乳腺癌细胞中独立于IFN的下游IFN反应基因,他们的数据表明IRF9可能是反应的替代标记物,并且可能与耐药性有关。在减数分裂过程中,染色单体结合蛋白染色单体与REC8结合并编码HMMR(透明质酸介导的运动受体),其编码细胞运动蛋白,与肿瘤抑制因子BRCA2和BRCA1形成复合物。DNA代谢相关的几个候选基因(RAD51、GINS1、TRIP13和MCM2)的表达与乳腺癌的不良预后相关。在24个关键基因中,SLC02A1、OAS2、OAS3和ATF6B是最近发现的与乳腺癌发病密切相关的基因,因此我们认为它们是新的关键基因。为了研究这四个新的关键基因的预测性能,我们使用了内部数据集(GSE53566)其中包括8个CapG表达,被修饰为两种不同的乳腺癌细胞系(MDA-MB-231 和 BT-20),或者是组合式(MDA-MB-231)、过表达(BT-20)以及相应的未经处理的正常细胞系。该数据集是从美国国家生物技术信息中心(National Center of Biotechnology Information,NCBI)的 GEO(Gene Expression Omnibus)数据库(http://www.ncbi.nlm.nih.gov/geo)下载的,以及两个外部数据集(GSE62931和GSE45827)对新关键基因ROC分析进行交叉验证。使用RMA(Robust Multichip Averaging)算法和R中的affy软件包对原始数据集执行背景校正、标准化处理以及表达值计算,以(abs(logFC)>1和ad.P.Val<0.01作为筛选差异表达基因的阈值。利用ad.P.Val<0.01筛选差异表达基因以控制假阳性率)。我们基于三个数据集,利用SVM估计统计量度,如真阳性率(True Positive Rate,TPR),真阴性率(True Negative Rate,TNR),阳性预测值(Positive Predictive Value,PPV),阴性预测值(Negative Predictive Value,NPV)和假发现率(False Discovery Rate,FDR)和AUC。预测有效性通常通过观察其ROC曲线进行检验的,从而给出完整的评估。利用 ROC(Receiver Operating Characteristic)曲线分析,研究了每种算法的敏感性和特异性,以最小化任何默认阈值的影响。我们使用R包“ROCR”评估了新的关键基因的敏感性和特异性,以及AUC(Area Under the Curve)来衡量每种方法的性能。AUC是一个重要指标,其值越大表示算法的性能越好。每个新关键基因的AUC值在0.93-1之间,这表明新的关键基因的预测性能优越。我们接下来用了 UALCAN验证新的关键基因的表达水平,UALCAN是一个用户友好的交互式网络资源,开发用于方便地探索与癌症基因组图谱(TCGA,The Cancer Genome Atlas)进行的癌症研究中的基因表达数据之间的生存相关性,可分析来自TCGA数据库的癌症转录组数据。它使用来自31种癌症类型的TCGA 3级RNA-seq的临床数据来进行以下工作:(a)根据根据个体癌症分期、肿瘤分级、种族、体重以及其他临床病例特征,分析基因在肿瘤样本与正常样本间以及不同肿瘤亚组间的相对表达;(b)评估基因表达水平和临床病理特征对患者生存率的影响;(c)识别癌症类型中的上调和下调基因。该数据库为靶基因的硅片验证和肿瘤亚群特异性候选生物标志物的识别提供了平台。结果显示,SLC02A1在乳腺癌中表达显著下调,OAS2、OAS3和ATF6B在乳腺癌中表达显著上调,与微阵列结果一致。为了评估所确定的预后标志物是否对预测患者的存活率有价值,我们还通过Kaplan-Meier曲线(以生存时间r为横轴,生存率s(tk)为纵轴,绘制而成的连续型阶梯形曲线,用以说明生存时间与生产率之间的关系)以及评估新基因的表达水平对乳腺癌患者生存的影响。SLC02A1(p=0.028)的表达与患者生存呈正相关,ATF6B(p=0.0028)的表达与患者生存呈负相关,而基因高表达的患者总体生存率较低。基因组癌症分析(Gene Set Cancer Analysis,GSCALite)是一个基于Web的基因组癌症分析平台。其功能模块如下:(ⅰ)肿瘤与正常组织的差异表达以及生存分析;(ⅱ)基因组变异及其生存分析;(ⅲ)基因表达相关的癌症通路活性;(ⅳ)基因的miRNA调控网络;(ⅴ)基因的药物敏感性;(ⅵ)基因的正常组织表达和eQTL。GSCALite是一种用户友好的Web平台,可以用于癌症和药物敏感性相关基因集的动态分析和可视化。我们最后利用了该数据库对关键基因进行药物敏感性分析,旨在为关键基因靶向治疗的药物选择提供支持。尽管仍旧需要新的临床试验设计来进行验证,但由于乳腺癌细胞丧失了正常细胞的特性,细胞之间连接松散,容易脱落。癌细胞一旦脱落,游离的癌细胞可以随血液或淋巴液播散全身,形成转移,危及生命。有人因此提出与传统观点相反的观点——将转移过程的治疗作为乳腺癌治疗发展的主要目标。尽管过去数十年间乳腺癌患者的治疗方面取得不小进展,但总体发病率和死亡率仍然很高,需要研究其分子机制来开发新的治疗方法。在本研究中,我们采用了一体化的生物信息学方法,利用基因表达微阵列数据集来探索与乳腺癌相关的新基因和代谢途径。上述结果发现的四个关键基因(SLC02A1、OAS2、OAS3和ATF6B)可能是与乳腺癌相关的基因。随后,基于微阵列数据进一步验证了新关键基因的表达水平——SLC02A1在乳腺癌中显著下调,而OAS2、OAS3和ATF6B在乳腺癌中显著上调,这与微阵列结果一致。通过ROC曲线分析来评估这些新关键基因的鉴别诊断性能。计算AUC值,结果表明新关键基因在GSE53566数据集中具有较高的敏感性和特异性,说明其预测性能优越。并验证了其表达水平对乳腺癌患者生存的影响,最后进行了药物敏感性分析。总之,我们采用了一种成熟的系统生物学方法来分析乳腺癌的关键基因,目的是重新定位药物。最后,研究发现了两个新的乳腺癌相关重要基因(SLC02A1和ATF6B)。本研究不仅有助于阐明乳腺癌的发病机理,而且也为乳腺癌的预后标志物和治疗靶点提供依据。
其他文献
以溶胶-凝胶法制备了钇(Y)掺杂的TiO2,采用SEM、EDS、BET、XRD等测试手段对其进行了表征.XRD分析结果表明钇掺杂的TiO2具有锐钛矿型结构;SEM观察发现该催化剂表面有大量孔,平
氧化剂对改善面包品质和丰富花色品种具有十分重要的作用。本文概述了溴酸钾作为氧化剂的作用特性及致癌性,以及偶氮甲酰胺作为溴酸钾的替代物在面包制作中的优越性能和应注
传统交通系统面临的交通事故、能源浪费和环境污染等问题已经成为现代城市发展亟待解决的重要问题,交通智能化和网联化已经成为现代交通发展的趋势。车联网作为智能交通系统
在低压微电网多逆变器并联系统中,逆变器等效输出阻抗一般呈阻性或阻感性,传统下垂控制方法会造成无功功率分配不均和系统环流。为解决该问题,提出了在传统电压电流双环控制
将丙酮(AC)、N,N-二甲基甲酰胺(DMF)和N-甲基吡咯烷酮(NMP)中的任意两种按不同比例进行混合,作为有机助溶剂,以甲苯二异氰酸酯(TDI),聚己内酯二元醇(PCL)和二羟甲基丙酸(DMPA
随着时代发展与文化变迁,我国民族传统体育非物质文化遗产的生存面临巨大挑战.陕西省非物质文化遗产在中华民族文化宝库中占有重要地位.运用访谈法、文献资料法、田野调查法
琢玉文化是我校校园文化的主旨。学校德育工作是校园文化建设的重要途径,课堂教学是德育教育的主阵地。在中职学校的专业课教学中渗透德育教育,将琢玉文化融入到日常教学工作
介绍了轴承盖铸件的结构及技术要求,详细阐述了该件的生产工艺及铸件冒口颈位置出现的缩孔、缩松问题,经过分析,采取了以下改进措施:(1)#5和#6铸件的独立冒口尺寸根部直径由5
本文分析了室内变电站变压器温度异常升高的原因,采取巡视变压器时开门和强迫通风一段时间,增大室内温度落差的方法和变压器室上部通风口加大,在变压器底部对外开通风孔并安
金属有机框架材料(MOF)因其具有丰富的孔道环境,被认为是良好的载体,相比于传统孔材料如介孔硅、介孔碳等,更易于精确调节孔道环境以实现客体分子更高效的功能性。目前有关生物