论文部分内容阅读
自上世纪九十年代以来,建立在结构风险最小化基础上的支持向量机(Support Vector Machine, SVM)已经成功地应用于各种实际问题中,如粒子识别、文本分类、生物信息学和金融应用等。SVM通过求解对偶空间中的二次优化问题(Quadratic Programming Problem, QPP)来寻找两类数据样本间的最佳分类超平面,常见的SVM的优化算法包括分解算法、几何算法和序列最小化算法等。这些算法虽然保证了其具有唯一的最优解,但在求解大规模QPP过程时它们的速度较慢,会影响SVM在大规模应用问题中的应用。本论文讨论SVM的对偶坐标下降(Dual Coordinate Descent, DCD)算法。该算法通过优化一系列随机排序地单变量子问题来直接求解SVM的对偶QPP,其迭代过程分为内部迭代和外部迭代。由于DCD算法的内部迭代仅仅是随机选择子问题进行优化,所以其目标函数值不能有效地下降,这导致DCD算法具有较慢的学习速度。本论文讨论了一种新的DCD算法,即修剪对偶坐标下降(Clipping Dual Coordinate Descent, clipDCD)算法。clipDCD算法仅仅具有一层迭代,每次迭代通过最大可能下降准则选取一个乘子变量并对其进行更新。与DCD算法相比,该算法不仅具有简单的迭代格式,而且更易于实现。注意到当训练数据较大时,clipDCD算法的每一步迭代需要耗费较多的时间用于确定将进行更新的乘子变量。本论文进一步讨论了一种概率加速clipDCD算法。该算法基于概率基础,将选择乘子变量的范围限制在大小为mm(|A|,[log(0.025)/log(0.975)])的A随机子集中,其中A为备择索引集。为验证clipDCD算法和其加速算法的有效性,本论文采用DCD、clipDCD口加速clipDCD算法对SVM、双支持向量机(Twin Support Vector Machine, TWSVM)、双参数间隔支持向量机(Twin Parametric-margin Support Vector Machine, TPMSVM)和投影双支持向量机(Projection Twin Support Vector Machine, PTSVM)在不同数据集上进行学习。实验结果表明本文提出的clipDCD和加速clipDCD算法能大幅降低DCD算法所需的训练时间和核计算量,同时,其分类精度不受任何影响。