论文部分内容阅读
肝细胞癌是最常见和恶性程度最高的癌症之一,目前已经成为我国第二大癌症杀手。尽管80%以上的肝癌都是由肝硬化发展而来的,目前并没有在肝硬化人群中诊断出早期肝癌有效的方法,这也是导致肝癌高死亡率的主要因素。当肝癌肿瘤较小,影像学方法无法判断,或者血清中甲胎蛋白的含量没有出现显著升高时,需要利用超声引导经皮穿刺活检组织学检查来进行确诊。基于基因表达谱数据识别鉴别肝癌与肝硬化的特征具有实际意义。目前已经发展了许多构建肝癌诊断分类器的算法如随机森林、逻辑回归模型等。但是,在一组数据集中训练的分类器往往很难在其它来源的样本中保持较好的分类准确率。为了应对基因表达谱检测的批次效对肝癌和肝硬化分类效果的影响,本文利用基因表达值的相对秩序关系的方法提取两组可以鉴别肝硬化与肝癌的基因表达分类标志物。本文首先提取了与肝硬化恶化为肝癌过程相关的差异表达基因,并分析了肝硬化恶化为肝癌过程中受到扰动的功能类,发现42个与这一过程显著相关的GO节点。包括“细胞周期”、“细胞增殖”、“细胞分裂”、“DNA复制”等。考虑到“细胞周期”GO节点在肝癌发生过程的重要作用,利用K-TSP算法提取与细胞周期相关的鉴别肝癌与肝硬化的分类器。该分类器可以准确地对来自多个平台、不同实验室的肝癌和肝硬化的组织数据进行分类。另一方面,当肝癌病灶小时,临床上活检取样经常会出现由于未取到癌组织而漏检的情况。为了解决这一难题,本文提取了可以有效区分癌旁肝硬化和非癌旁肝硬化的基因表达标志。利用基因表达值相对秩逆转的算法提取了9对基因组成的分类器,该分类器可以准确区分独立数据集中的癌旁肝硬化与非癌旁肝硬化的样本。本文用于提取基因表达标志的方法关注单个样本内部两个基因之间的相对表达模式,具有对数据平台和预处理及标准化方法稳定的特点。应用该方法得到的标志物具有较强的稳定性和可移植性。通过结合使用两组肝癌肝硬化相关标志物,可以准确地鉴别肝硬化与肝癌。