论文部分内容阅读
本文针对多类别分类问题,提出了一种基于核主成分分析的投影残差分类器,首先通过与高斯核函数对应的非线性特征映射,将多个类别映射为特征空间中的特征子空间,非线性特征映射能够降低特征子空间的维数,并增强它们之间的两两正交性,然后用核主成分分析方法提取每个特征子空间的主成分,摒弃噪声干扰。在进行分类时,则使用相同的非线性特征映射将测试样本映射到特征空间,然后将其向各个特征子空间的主成分进行投影,以测试样本在特征空间中映像与投影的残差大小来进行分类。该算法能一次区分多个类别,较快速,效果好。然后以降低特征子空间的维度、提高特征子空间的正交性为目标,保持局部内积为约束条件,优化投影残差分类器的核函数。尽量拉伸曲面流形,使得特征空间中每个类别的训练样本与这个类别的中心的距离最大化,以此降低特征子空间的维度。以特征空间中每个类别的训练样本与这个类别的中心来确定方向,使不同特征子空间的维度方向相互正交,以此来提高它们的正交性。中心化的内积矩阵决定了距离矩阵,也决定了样本点的所有空间结构,所以保持局部内积能保持局部结构。优化后的核函数显著降低了特征子空间的维度、提高了特征子空间的正交性,并取得很好的分类效果。接着使用半正定嵌入流形方法估计展开后的测地距离,使用测地距离来代替高斯核函数的欧式距离,利用新核函数进行投影残差分类,添加半正定嵌入流形方法后各个特征子空间的维度急剧的降低了,但识别率也降低了。后来又将拉普拉斯核矩阵应用于流形学习理论,拉普拉斯核矩阵能很好的体现类别之间的区别,将两个类别转化为完全正交的两个特征子空间。最后提出了一种基于内积的多类别流形学习方法。以降低与各个类别相对应的特征子空间的维度为目标,使各个特征子空间正交化、保持局部内积为约束条件,这是一个完全基于内积的算法。将目标函数和约束条件转化为一个半正定规划问题进行试验,取得了预期的效果。然后搜索测试样本的多个邻近的训练样本,寻找这几个邻近的训练样本在特征空间中的线性组合,以保持局部距离为目标计算测试样本流形展开后的坐标,直接在特征空间中用PCA进行投影残差分类,效果不错。
本文采用两条路线来建立投影残差分类器,一是利用核函数并对其进行优化,一是利用流形学习方法或建立多类别流形学习方法。总的来讲,这两种方法的基本原理是一致的,都是通过非线性映射来将多类别映射为低维的、两两正交的特征子空间,然后在特征空间中使用投影残差进行分类。