论文部分内容阅读
在机器学习和模式识别领域,特征提取和特征选择技术已经成为了解决高维数据的重要途径,并且在信息检索、文本分类和疾病诊断等领域都得到了广泛的应用。研究表明多数的特征提取和特征选择算法都利用相似性来衡量样本之间的关系,而样本之间的相似性往往都是使用传统的欧氏距离计算。由于欧氏距离的静态本质,因此它往往忽略了周围其他样本对目标样本的影响以及样本与样本之间潜在的动态结构。为了可以充分反映出样本之间这种潜在的动态结构,本文提出在全局拓扑结构关系的基础上,考虑到其他样本与目标样本之间的关系,然后计算样本之间的距离,即有效距离。接着我们利用了有效距离计算样本之间的相似性,提出了基于有效距离改进的特征提取和特征选择算法。本文的主要创新点和研究工作总结主要如下:一方面,我们提出了两种方式计算样本之间的有效距离,分别为基于KNN (k Nearest Neighborhood)的有效距离和基于稀疏表示的有效距离。这两种有效距离的计算都要依赖于样本之间的拓扑结构关系,因此我们首先利用样本之间的稀疏重构关系或样本之间的近邻关系构造出一个双向的拓扑网络,然后依赖于这个双向网络计算了两个样本之间的有效距离。接着,我们把基于有效距离得到的相似性矩阵引入到特征提取算法中,得到了基于有效距离的特征提取算法。实验结果表明,基于有效距离改进的特征提取算法,能够有效地获取样本的全局和局部结构信息,从而得到更加优越的分类性能。另一方面,我们首先通过稀疏表示得到样本之间的稀疏重构关系,然后基于这种稀疏重构关系构建了全局的拓扑结构,从而可以计算样本之间的有效距离。通过有效距离,我们可以计算不同样本之间基于有效距离的相似性,在特征选择过程中用于衡量特征的重要性。此外,我们在特征选择过程中加入了迭代的思想,逐渐地去选择最优的特征子集。因此,我们提出了基于有效距离的迭代特征选择算法。我们在一系列的UCI数据集上进行了验证,实验结果表明,相比于使用欧氏距离的特征选择算法,本文提出的基于有效距离的特征选择算法可以选择出更优的特征,进而可以提升分类性能。