论文部分内容阅读
基因芯片是获取大规模基因表达数据的崭新技术,运用这种技术可以获得并分析机体组织中成千上万个基因的表达水平及其与疾病的关系。但是,机体组织所具有的部分体积效应,使得对基因微阵列数据的直接处理将造成所提取特征不是真正的生物基因特征本身,严重降低基因特征测量的灵敏度和指向性。因此,本文提出用部分独立分量分析方法代替传统的生物医学方法进行基因的部分体积修正从而获得真正感兴趣的微阵列数据。该方法不但降低了生物实验的成本,而且易于操作实现,具有很强的应用价值。同时,根据基因微阵列数据的特点:极少样本超高维,本文引入了一个新的统计机器学习算法Boosting。在对Boosting算法进行详细分析并设计了一种新的证明其收敛性的方法后,从算法的不稳健性出发,对Boosting算法中多个弱分类器集成规则进行了改进,提出了一种稳健的Boosting学习算法。经过对公开的测试数据集和真实的基因微阵列数据大量实验,证明了用部分独立分量分析方法获取基因微阵列数据及Boosting改进算法进行基因模式分类的可行性和有效性,最终也完成了基因模式的识别任务。