论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是基于统计学理论的一种通用有监督机器学习算法。支持向量机实现了结构风险最小化原则,具有高拟合度、参数较少、推广能力强以及全局最优等优点。支持向量机作为解决小样本非线性问题的有效工具之一,一直以来都备受研究人员的关注。然而,实际获得的数据往往是无标签的。由于其易于获取,因而数量庞大。给所有的数据都打上标签是一件费时又费力的事。如何能有效地利用少量有标签样本和大量无标签样本,是半监督学习要考虑的问题。拉普拉斯支持向量机(Laplacian SVM,LapSVM)把拉普拉斯正则引入到支持向量机中,成功将支持向量机从有监督学习领域延伸至半监督学习领域,实现了支持向量机对无标签数据的利用。真实数据包含着各种噪声,例如冗余特征或样本等,这些噪声将对模型性能产生负面影响。为了消除噪音或冗余的影响,生成一个稀疏决策模型来实现数据约减则显得尤为必要。为了解决拉普拉斯支持向量机不具有稀疏决策模型的问题,本文对稀疏拉普拉斯支持向量机进行了研究,并应用到分类、降维和去噪等典型半监督学习任务中。论文的主要研究工作和创新点如下:(1)基于拉普拉斯支持向量机,本文引入L1范数正则,提出一种半监督的稀疏支持向量机算法—L1范数拉普拉斯支持向量机(L1-norm Laplacian Support Vector Machine,L1-norm LapSVM)。与拉普拉斯支持向量机不同,L1范数拉普拉斯支持向量机的求解是在原空间中进行的。此外,目标函数中Hinge损失函数和L1范数正则同时保证了解的稀疏性。该方法可以同时实现特征约减与样本分类。也就是说,该方法既可以被视作是一种分类器,也可被认为是一种特征选择方法。实验证明了在对比的线性方法中,L1范数LapSVM具有较好的性能。(2)为处理非线性数据,通过引入高斯核来拓展线性半监督稀疏拉普拉斯支持向量机算法,提出了核L1范数拉普拉斯支持向量机(Kernel L1-norm Laplacian Support Vector Machine,Kernel L1-norm LapSVM)。核L1范数拉普拉斯支持向量机的目标函数中也包含了 Hinge损失函数和L1范数正则,因此模型的稀疏性也得到了保证。该方法可以同时实现样本约减与样本分类。实验证明了在对比的非线性方法中,核L1范数拉普拉斯支持向量机具有较好的分类性能。(3)提出了一种半监督的流形保持图约减算法,利用该算法可以对数据进行预处理。当样本数量比较大时,核L1范数拉普拉斯支持向量机有很高的计算复杂度。为了解决这个问题,我们提出了 SMPGR以及它的核版本进行数据预处理以提高样本质量。进行预处理后,既可以将样本规模缩小,又能保持住数据的原始结构信息。把该预处理方法和半监督稀疏拉普拉斯支持向量机相结合,进一步实现了样本数据的约减,实验也验证了其在半监督学习中的有效性。