论文部分内容阅读
最小二乘支持向量机(LSSVM)是支持向量机(SVM)的一种变形,被广泛的应用于分类与回归问题中。与SVM解二次规划问题相比,LSSVM可转化为解一组线性方程组,从而提高了训练速度,但是失去了解的稀疏性,导致测试速度变慢,不适用于大规模数据集,所以稀疏化LSSVM成了关键。最小角回归(LARS)是解lasso问题的一种快速且高效的方法,同时可以使lasso问题的解具有稀疏性。所以本文把LSSVM所对应的线性方程组看作是一个lasso问题,然后用LARS的原理解这个问题,得到其稀疏解,从而达到稀疏LSSVM的解的目的。本文的主要工作包括以下两个方面。 一方面,LARS在解lasso问题时要求数据(系数矩阵)列满秩,而原空间中的LSSVM(P-LSSVM)所对应的系数矩阵不满足这个要求,因此,本文提出修正的LARS(RLARS),即把备选集中可能入选的与已选变量线性相关的变量排除。通过实验说明RLARS在合适的阈值参数下可以避免近似相关向量的选择,即RLARS可以解系数矩阵不是列满秩的lasso问题。基于此本文提出新的稀疏LSSVM的方法RLARS-LSSVM,即用RLARS解P-LSSVM所对应的线性方程组。该方法可通过控制迭代次数来控制P-LSSVM的解的稀疏水平(支持向量的个数)。在P-LSSVM中,由于内存及时间的限制,大规模数据集显然不能再按照定义计算核矩阵,于是本文采用低秩近似的方法来近似核矩阵。最后通过线性分类与非线性分类实验说明算法RLARS-LSSVM的有效性。 另一方面,基于误差最小化的原理对LARS进行修正提出解lasso问题的新方法,即秩一修正(ROR)。ROR在迭代过程中,根据最小二乘的几何意义直接更新每一步的拟合值,无需计算具体的方向和步长,从而减少了计算量。又因为ROR具有只选择完全线性无关的向量和在迭代过程中误差逐渐减小的性质,所以本文提出另一种稀疏LSSVM的新方法ROR-LSSVM,即用ROR解D-LSSVM的线性方程组。该方法同样可通过控制迭代的次数来控制支持向量的个数,由于在迭代的过程中,误差逐渐减小,从而保证测试精度逐渐增大的趋势。最后通过线性分类与非线性分类实验说明算法ROR-LSSVM的有效性。