论文部分内容阅读
基于基因表达谱在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文将数据挖掘技术应用在基因表达谱分类分析领域,对特征提取及肿瘤亚型识别问题进行了研究,取得如下研究成果:提出了基于神经网络和线性回归的肿瘤亚型分类方法。针对急性白血病数据集,设计了三类信噪比指标,采用小波分析及线性回归方法提取候选特征基因,基于BP神经网络构建分类器,依据独立测试结果确定特征基因。针对该数据集提取出5个特征基因,其独立测试准确率达到91%。本文同时使用决策树方法对该特征子集测试,识别率达86%。提出了基于GSNR指标的特征基因选取及肿瘤亚型识别方法。将数据挖掘方法Gini指数与传统指标“信噪比”(SNR)相结合,构建综合指标GSNR剔除无关基因;采用BP神经网络设计分类器;使用SM算法确定特征基因。针对急性白血病数据集,按三类肿瘤亚型分类,提取出8个特征基因,独立测试准确度达97%。实验结果表明GSNR指标具有良好的降噪能力和可伸缩性。设计实现了基于GB指标的基因表达谱分类方法。将Gini指数与类加权Bhattacharyya距离相结合,构建GB指标剔除无关基因;基于支持向量机构建分类器;通过“两两冗余”后,依据后向搜索算法选定最优特征子集。针对SRBCT数据集提取出7个特征基因,采用SVM分类器测试准确识别了数据集中所有样本,同时采用ANN、CBA等方法对特征子集进行测试,取得满意的结果。该特征子集分类性能优良,特征数量精简,优于同类实验。