论文部分内容阅读
肿瘤是影响人类健康的主要疾病之一,然而目前的肿瘤诊断方法和治疗效果都不是很理想。基于基因表达谱的肿瘤分子诊断方法是一种全新的快速而准确的诊断方法,它还能检测肿瘤的进展、恶化程度以及抗癌药物的耐药性等,为临床医生诊断肿瘤分型、提供治疗方案以及分析预后提供一种重要参考。目前,具有“高维,小样本”特征的微阵列数据不断积累,如何有效地从这些高维数据中获取有用信息或规律已成为当今信息科学与技术所亟待解决问题之一。从基因表达谱的成千上万个基因中选择分类能力强,数量少的特征基因极具复杂性。通常情况下,在如此大的基因空间中进行穷尽搜索是不可能的。因此选择合适的特征提取方法是非常重要的。本论文中,我们在总结流形学习算法成果的基础上,我们应用一种新的特征提取方法和一些流形学习算法对两类和多类分类问题进行了研究比较,最后我们利用CMVM(Constrained Maximum Variance Mapping, CMVM)和局部线性判别嵌入算法(locally linear discriminant embedding, LLDE)算法对跨平台肿瘤数据进行了分类比较研究。本文主要作了以下研究工作:第一,把一种肿瘤基因表达数据特征提取方法——基于约束最大差异投影的特征提取方法(Constrained Maximum Variance Mapping:CMVM)应用于肿瘤样本基因特征提取,然后我们用K-NN分类器进行分类:在两类分类实验中,我们对前列腺癌数据集和乳腺癌数据集进行了特征提取及识别率的分析;在多类分类实验中,我们对白血病数据集和中枢神经系统肿瘤数据集进行了特征提取及识别率的分析。通过对不同的肿瘤样本基因特征提取及识别率的分析实验验证了该方法的可行性和有效性。第二,把流形学习算法用于跨平台肿瘤样本基因表达数据的特征提取,然后用K-NN分类器进行分类,从而比较它们的识别效果。本文最后指出了目前肿瘤基因表达数据特征提取及分类研究存在的一些问题以及今后需进一步开展的研究工作。