论文部分内容阅读
稀疏学习是一种有效处理冗余问题的方法。目前,稀疏优化方法已广泛应用于信号压缩感知、图像处理等实际问题中,其理论和算法都在快速发展中。由于大规模数据挖掘问题往往具有冗余和稀疏的特点,因此稀疏优化是处理大规模数据挖掘问题的上佳之选。而支持向量机作为通用的机器学习方法,具有坚实的统计学习理论基础,实际应用效果好,使用方便,模型参数较少,在图像、视频、声音、文本等不同领域得到了广泛的应用。国内外关于大规模稀疏支持向量机的理论研究和方法并不成熟,缺乏理论基础和模型算法,尚处于初始阶段。比如:1)稀疏模型的有效性检验指标,即如何度量模型的稀疏程度以及稀疏效果的好坏问题等;2)大规模问题的稀疏模型缺乏统一的理论基础;3)大规模问题的稀疏优化模型求解问题;4)拓展研究比较少,对其拓展有较大空间。我们拟从最优化的角度对上述多方面进行系统研究。本文共分七章,组织结构如下:第一章为引言部分,介绍本文的研究背景、研究意义、研究对象和主要工作概述。第二章详细介绍与本文研究内容密切相关的算法,包括标准的支持向量机(SVM)、最小二乘支持向量机(LSSVM)、基于Ramp损失函数的支持向量机(RSVM)、双子支持向量机(TWSVM)、非平行支持向量机(NPSVM),并比较分析了他们的优缺点。由于NPSVM具有更好的推广能力,后面的研究内容则重点围绕NPSVM展开,一方面从理论上探索其统计学习理论基础,另一方面从方法上构建更稀疏的、能处理大规模问题的NPSVM模型和算法。第三章针对分类问题,提出一个具有稀疏性和鲁棒性的非平行超平面分类机—基于Ramp损失函数的非平行超平面SVM(RNPSVM)。RNPSVM在训练阶段可以处理含有噪音和异常点的数据,并含有较少的支持向量,从而增加了模型的稀疏程度,具有更好的推广能力。针对该模型中非凸优化问题的求解,我们引入了有效的CCCP策略。进一步,对该模型的稀疏性、复杂度、初始化等进行了理论分析,大量的数值实验也验证了该模型的有效性。第四章从U-SVM的角度构建了NPSVM的结构风险最小化原则,给出了其相应的统计学习理论解释。之后从提升计算效率的角度出发,分别给出了基于线性规划形式的NPSVM和基于线性规划形式的RNPSVM,为NPSVM方法处理更大规模的问题提供了可选择的模型。第五章首先讨论了 LSTWS VM和LSS VM的关系,证明LSS VM是LSTWS VM的退化情况。进一步,基于LSSVM,提出了一个新的稀疏和鲁棒的最小二乘支持向量机RLSSVM。在原有稀疏模型ε-LSSVM基础上,构建并引入了一个新的基于ε-不敏感损失函数的Ramp损失函数,新模型可以有效地对噪音抗干扰,并且具有更好的稀疏性。引入了CCCP策略来求解该模型中非凸优化问题,不同数据集上的数值实验证明了RLSSVM的有效性。第六章基于前面的NPS VM和RNPS VM,提出针对大规模线性分类问题的交替方向乘子法(ADMM),ADMM是目前处理大规模问题的有效优化算法。通过将NPSVM和RNPS VM中的优化问题构造为ADMM可以求解的形式,实现了ADMM在这两个算法上的应用。大量的实验证明了算法的有效性。最后一章总结了本文的主要工作以及取得的成果,并提出了进一步的研究方向。