论文部分内容阅读
模式识别的主要任务就是利用样本中的特征,将样本划分为相应的模式类别。通常情况下,样本特征中包含了足够的类别信息,才能通过分类器实现正确分类。为了提高模式识别的正确识别率,人们通常需要采集数量巨大的原始特征,使得原始特征空间或输入空间的维数可能高达几千维或几万维。这样,结果不仅使样本特征维数增大,而且其中可能存在较大的相关性和冗余,影响最后的分类精度。这就造成所谓的维数灾难。所以为了有效地进行模式分类和数据分析,特征降维就显得异常重要。本论文的研究目的是为了探索新的特征选择方法,提出一种用于特征降维的特征排序,丰富减少特征维数的方法。文中简要介绍了特征降维的准则,回顾了当前的主要特征降维技术。文中也对概率密度估计进行了阐述,重点介绍了非参数法和Parzen窗口概率密度估计。本论文重点是建立了基于概率密度逼近的特征选择准则,阐述了应用该准则进行特征排序的原理和方法。针对特征选择这一问题,文中依据对稠密或高维数据集的加权变换,对变换前后的数据采用Parzen窗口概率密度估计方法来分别估计它们的概率密度,并在一定的条件下让两个概率密度逼近,从而提出了一种新的基于概率密度逼近准则的特征排序方法。文中对于概率密度的估计,结合了更能体现数据特征的Gaussian核函数Parzen窗口概率密度估计方法。论文同时针对无监督的情况,利用更简单的Parzen窗口概率密度估计,提供一种简化了的针对无监督情况的特征排序方法。论文最后采用MATLAB来编程实现了文中提出的算法,选取了大量数据来进行实验。大量的基于交叉验证的实验结果以及其它实验都表明,本文所提出的方法是有效、可行的,并且与现有的一些方法相比,更为有效。它还有着运算速度快等优点。