论文部分内容阅读
目的:随着我国人口结构趋于老龄化,全国恶性肿瘤的发病率逐年上升。肺癌发病率高居榜首,其次为胃癌、结直肠癌、肝癌和食管癌。其中女性肿瘤患者中乳腺癌发病率最高。因此,筛选一种能够指导乳腺癌早期诊断的分子标志物对早期预防乳腺癌的发生发展起到关键的作用。近年来,生物信息学高速发展,生物大数据,如基因芯片数据、RNA-seq数据急剧增加。利用生物信息学的分析方法和生物信息学分析软件,分析生物大数据,寻找与疾病发生发展相关的靶点,能够得到意想不到的结果,为研究疾病的发生和发展提供了一条新的思路。方法:1、从GEO数据库中下载基因芯片数据,利用R语言中的生物信息学软件,筛选与乳腺癌相关的差异表达基因。然后用WGCNA方法对差异表达基因构建基因共表达模块。根据GEO数据库中每个样品的表型数据,筛选与乳腺癌相关的基因模块,并对模块中的基因进行GO富集分析。同时用cytoscape对模块中的基因的共表达关系进行可视化。2、从GEO中下载乳腺癌患者的RNA-seq数据,利用sratoolkit软件将.sra文件转换为.fastq文件,然后通过Fast QC软件对RNA-seq数据进行质量评价,剔除质量较差的数据。接下来用HISAT2软件将数据比对到人类参考基因组上,然后通过StringTie软件量化基因的表达水平,同时将数据转换成Ballgown可以读取的格式。最后用R语言的Ballgown包进行基因的差异表达分析,筛选出差异表达基因。3、为了验证生物信息学方法和软件分析的结果,收集乳腺癌患者的乳腺组织和非乳腺癌患者的乳腺组织,通过荧光定量PCR方法检测生物信息学分析的结果。结果:1、通过对乳腺癌组织的基因芯片数据的分析,筛选出了与乳腺癌发生发展相关的2404个差异表达基因,构建了11个基因共表达模块,通过与样本表型数据的相关性分析,筛选出yellow模块与乳腺癌密切相关,然后对其中的基因进行GO富集分析,结果表明主要富集的显著性生物进程包括上皮管的形成过程、小管形成过程、小管形态发生过程和上皮管的形态发生过程等。用cytoscape软件对基因列表进行可视化分析,筛选出了4个基因,即RAB25、KRT19、SPINT2和AP1M2,它们与乳腺癌的发生发展显著性相关。2、通过对乳腺癌组织的RNA-seq数据进行基因差异表达分析,筛选出了AGR2、AGR3、MMP11、POSTN和KRT19基因。把RNA-seq数据分析结果与芯片数据分析结果比对,并结合文献研究,发现KRT19在乳腺癌的发生发展中起着关键性的作用,它的表达水平与乳腺癌发生发展显著性相关。3、通过荧光定量PCR实验,我们验证了生物信息分析的实验结果,发现KRT19基因在乳腺癌患者的乳腺癌组织中显著性高表达,表明了KRT19在乳腺癌的发生发展中起着关键性作用,具有用于乳腺癌早期诊断的分子标志物的潜力。