论文部分内容阅读
癌症仍然是最困扰人类的疾病之一。得益于基因芯片技术的迅猛发展,研究人员获得了海量的癌症基因表达数据。利用基因表达数据来分析诊断病症,已成为后基因组时代的热点之一。基因表达数据的分类是针对具体功能基因表达的分析,其准确分类有助于提高疾病诊断的效率。但是,基因表达数据普遍具有样本数量少、单个样本维数极高、数据非线性等特征。针对基因表达数据的基本特征,本文采用支持向量机(Support Vector Machine,SVM)对基因表达样本进行分类。SVM是一种基于统计学学习理论的机器学习理论,可应用于变量数目远大于样本数目的数据。不同于经验风险最小化原则,它采用结构化风险最小化的原则,寻求泛化能力好的决策函数,有效避免了局部最优解。在有限的训练样本下,运用SVM得到的决策规则对独立的测试集分类能够得到较好的效果。虽然SVM的样本训练策略很好的避免了局部最优,但是,样本数过少的现实对决策规则的训练有着无法避免的影响。为了得到更加精确的训练结果,本文考虑使用数据降维算法,对基因表达数据进行降维处理,利用较低维度的数据进行训练,已取得更好的分类准确率。文中使用到的降维算法有主成分分析算法(Principle ComponentAnalysis), PCA多维度标度算法(Multi-Dimensional Scaling, MDS),拉普拉斯特征值映射算法(Laplacian Eigenmaps)等。本文侧重基于SVM分类方法的数据降维算法对数据分类优化的研究。采用常用的Lung和DLBCL数据进行试验分析。实验结果表明,数据降维算法结合SVM分类方法,对数据分类准确率有显著的优化作用。相比较传统分析方法,基于SVM分类的数据降维算法的应用,使高维数据的分析有了新的突破。