论文部分内容阅读
目前,癌症是严重危害人类身体健康的一种重大疾病,因此研究癌症的致病机理成为当前的研究热点之一。随着高通量测序技术的发展,研究人员可以使用基因芯片技术得到多种癌症的基因表达数据,在人类全基因组水平上分析基因表达对癌症发生和发展的影响。然而通过基因芯片技术得到的表达数据存在样本量小、特征维度大的特征,这给人们的后续研究带来很大的困难。因此,采用优秀的特征选择算法识别导致癌症发生的关键基因,有利于早期干预、诊断及治疗,具有十分重要的理论和临床价值。本文以癌症基因组图谱数据库(TCGA)转录本数据集为研究对象,建立了一种基于基因表达数据的癌症早期特征基因识别方法,该方法可以筛选癌症发生阶段的少量特征基因,并保持较高的识别精度。主要工作包括三个部分:第一部分,选择TCGA数据集中的乳腺癌样本作为研究集,提出了一套乳腺癌发生的特征基因选择方法,经过支持向量机、随机森林等多种机器学习建模方法,预测精度达到98%以上,与以往的研究相比,识别准确率更高。KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析得到与基因显著相关(P<0.05)的通路有8个,对通路中的一部分基因进行简要功能分析,说明了这些基因在调控水平上的密切关系,表明识别的特征基因在乳腺癌的发生过程中起着重要的作用,这对了解乳腺癌发病机理以及乳腺癌的早期诊断非常重要。第二部分,将乳腺癌的研究方法应用于TCGA数据库中多种癌症。针对TCGA的乳腺癌、肺腺癌、肺鳞状细胞癌、结肠癌、肾透明细胞癌、甲状腺癌、肝细胞癌七种癌症的转录本数据,筛选与每种癌症发生有关的关键基因,建立多种癌症发病的识别方法,为癌症早期阶段的研究和诊断提供理论上的支持。对于TCGA数据集,七种癌症的识别精度均能高达98%,对于GEO独立数据集,识别精度均能高达92%,其中癌症I期的识别准确率最低为95%,这些结果表明,本文的特征基因筛选方法普适有效。从七种癌症的特征基因中整理得到了在五种癌症中共同出现的基因:PID1和SPTBN2,同时,采用KEGG通路分析,得到三条癌症发生的共性通路,说明了这些共性通路与癌症发生发展的密切联系,筛选得到的高置信度少量特征基因对癌症早期诊断研究有重要价值。第三部分,根据特征基因筛选工作生成了一个癌症特征基因筛选与模式识别软件。在包含本文筛选方法的同时,加入多种机器学习建模和预测功能,形成了一个一体化的生物信息挖掘软件,可对癌症基因组图谱数据库的所有癌症数据进行筛选和分析,为今后分析其它癌症的发病机理、多种癌症的相互联系提供便利。本文选取TCGA数据库中七种癌症样本作为研究对象,建立了癌症的特征基因识别方法。结果表明:特征基因筛选方法可有效筛选癌症发生的特征基因,高置信度的少量特征基因能有效区分癌旁和癌症早期样本,对癌症发生机理及早期诊断研究具有重要的价值。