论文部分内容阅读
特征选择作为一种数据预处理的重要方法,是监督学习算法中的一个重要组成部分,在数据挖掘、机器学习,模式识别等相关领域的研究和应用中有重要地位。近年来,图像处理、文本识别、基因表达等大规模问题的不断出现,特征选择算法越来越受到人们的重视,并对其提出了严峻的挑战,寻找能够适应大规模数据的准确性和运行效率等综合性能较好的特征选择方法成为一种迫切的需要。本文对高维数据的特征选择算法作了一些研究,提出了一种适用于多类别模式识别问题特征选择的特征重要性度量策略,并将所提出的特征选择算法应用到红斑鳞状皮肤病诊断中研究中。本文的主要工作包括以下几个部分。首先,对目前特征选择的研究现状和问题进行了具体而又深入的研究,分析了特征选择的定义,特征选择算法与特征提取的关系,特征选择的四个方面,特征选择的两种模式,归纳了几种常见的搜索算法,并提出了特征选择算法的选用技巧。其次,提出了一种改进的F-score特征选择方法。传统的F-score特征选择方法是度量样本特征在两类之间的辨别能力的方法,本文对其进行推广,提出了改进的F-score,使其不但能够评价样本特征在两类之间的辨别能力,而且能够度量样本特征在多类之间的辨别能力大小。另外,结合Filter和Wrapper各自的优缺点,提出了基于IFSFS (Improved F-score and Sequential Forward Search(顺序前进法))与SVM (Support Vector Machines,支持向量机)的特征选择方法。它以改进的F-score作为特征选择准则,顺序前进法(SFS)作为特征选择的搜索方法,用支持向量机作为分类方法来评估特征子集的有效性,实现有效的特征选择,并将该方法应用到红斑鳞状皮肤病的诊断中。通过实验结果证明该特征选择方法的有效性。最后,针对SFS的主要缺点,即一旦某个特征已入选,即使由于后加入的特征使它变为多余,也无法再把它剔除,本文提出了基于IFSFFS(Improved F-score and Sequential Forward Floating Search(顺序前进浮动搜索))与SVM相结合的特征选择方法。将IFSFFS+SVM特征选择方法应用到红斑鳞状皮肤病诊断中进行实验测试发现,该方法取得了非常好的诊断效果。