论文部分内容阅读
目前,恶性肿瘤的治疗依然是当今世界的难题,发病类型多样而且难于治愈。早期诊断和精确分类有助于对患者进行有效的临床治疗,在最大程度上挽救宝贵的生命。当今,对肿瘤诊断和分类的主要手段是通过组织病理学特征进行判断的。但是,这个方法有一个固有的缺点。因为,某些肿瘤类型的组织病理学特征很相似,但是在临床治疗反应和预后上具有显著差异,这容易导致病患接受不利治疗。基因芯片技术是一种可以高通量研究基因表达变化的分子技术,通过基因芯片技术可以大规模检测肿瘤的基因表达情况,从而获得肿瘤基因表达谱。因为肿瘤在基因表达变化方面呈现高度的异质性,通过肿瘤基因表达谱可以区分那些组织特征相似的肿瘤类型,从而实现对恶性肿瘤的早期诊断和精确分类。因此基因芯片技术具有很大潜力发展为对肿瘤实现简便、快捷诊断与分类的工具,这无疑可以对患者和社会带来巨大的益处。基于基因表达谱的分类包含两个重要的部分:特征基因选择(feature gene selection)和分类器构建(classifier construction)。在基因表达谱获取过程中,由于非特异性杂交等原因,产生于基因芯片技术的基因表达谱数据具有较大的实验误差。同时,由于实验成本较高导致实验样本很少,而检测的基因数目很多可达上万,这导致基因表达谱数据包含大量的无关基因,是典型的高维、高噪问题。另外,由于存在大量相关性很强的基因,导致分类上存在的冗余信息很多。对于这种充满冗余信息且高维高噪的数据,通过特征选择获得与疾病相关的特征基因对于分类问题显得尤为重要。GA/KNN方法是一种成功的wrapper式特征基因选择方法。自提出以来,其实用价值已在国际上获得广泛认可。我们在MATLAB下实现了GA/KNN方法,并通过实验验证了我们的实现过程,最后我们对GA/KNN的成功之处进行了总结。在总结已有工作成果的基础上,我们尝试提出了一种新的特征选择方法GA/WV。通过公开的基因表达谱的数据分析实验验证,证明我们的GA/WV可以应用到二类或多类的特征基因选择问题,并对我们的GA/WV方法的某些性能进行了摸索。因为噬菌体展示蛋白芯片数据分析原理和基因芯片数据分析原理本质上相同,我们将GA/WV的方法应用到我们实验室的噬菌体展示芯片数据中,通过实验比较,我们发现GA/WV的效果要好于T检验。