论文部分内容阅读
随着人类基因组计划的顺利完成,基因芯片技术越来越完善,癌症研究开始进入了新的时代。基因芯片技术具有划时代意义的特点是能同时监测成千上万条基因的表达,并能在同一阵列上对每一条基因进行定量表示;解决了特定物种细胞中在某一特定的时间、特定的条件下基因表达谱测量问题。当前,基因芯片技术不仅是基因组信息学研究的主要支撑技术,而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的重视和应用。
癌症基因芯片数据分析使得在大规模基因水平上深入研究癌症的发生、扩散和转移等病理特征成为可能,并被公认为癌症研究与治疗的强大工具。在临床表现上,癌症往往复杂多样并具有极强的隐蔽性和高复发率,从而导致较低的临床诊断与分类成功率。然而,癌症的成功治疗却往往在于可靠而有效的特征提取和选择方法。为此,本文主要研究和探索了基于基因芯片数据分析的特征提取和选择技术。全文的主要工作包括以下两个方面:
1)提出了一种新的特征提取方法——判别主分量分析。众所周知,主分量分析(PCA)方法和线性判别分析(LDA)是两种常用的特征提取方法。PCA和LDA各有其缺点:PCA提取得到一组互不线性相关且能量较大的特征,但这些特征的分类性能不佳;LDA提取得到一系列有利于分类的特征,但是这些特征间不是线性无关的。因此我们提出一种新的方法——判别主分量分析(DPCA)。判别主分量分析方法能够结合PCA和LDA的优点,克服彼此的缺点,提取到一组既线性无关又有利于分类的特征集。
2)将判别主分量分析方法用于癌症基因芯片数据分析。由于基因芯片“高维、小样本”的特点,现有的统计分析方法不能获得令人满意的结果。因此本文针对基因芯片数据的特点,在判别主分量分析中使用更有效的判别函数。该方法在模拟实验中获得令人满意的效果。