论文部分内容阅读
从支持向量机到非平行支持向量机的研究,近几年引起广泛关注。支持向量机主要是寻找一对平行超平面,并且使这两个平行超平面的间隔尽可能的大。而非平行支持向量机旨在为每类数据构造一个最优的超平面,构造的超平面并没有平行这个限定,并且期望每个超平面能够靠近本类数据,而远离其他类数据。非平行支持向量机解决了传统支持向量机面临的两个问题,一个是解不等式二次规划需要的高计算复杂度,另一个就是求解异或问题,而且非平行支持向量机对不同类型的数据有较好的分类能力。在一些具有噪声的数据中,噪声会降低决策函数的泛化能力,容易引起过拟合,影响其分类性能。非平行支持向量机主要考虑从损失函数和数据结构出发,提高其分类性能。因此,本文在非平行支持向量机的基础上提出了不同模型的非平行支持向量机模型。本文主要分为以下两个主要研究内容:一方面,从支持向量机的角度出发,利用不同的损失函数构造出不同的非平行支持向量机模型。该模型引入了新的软间隔损失函数,可以适用于不同类型的数据;这个新的非平行支持向量机可以退化为标准的支持向量机模型,这样该模型的计算方法和支持向量机的计算方法是一样的;把具有稀疏性的损失函数加入到非平行支持向量机中,既保持了稀疏特性,有可以适应不同类型的交叉数据。通过大量的公共数据集实验验证了其有效性。另一方面,两个优秀的非平行支持向量机模型:广义特征值近端支持向量机(Proximal Support Vector Machinevia Generalized Eigenvalues,GEPSVM)及其改进的广义特征值近端支持向量机(Improved Generalized Eigenvalue Proximal Support Vector Machine,IGEPSVM),它们具有良好的推广性能,但是,在实际应用中它们也有一些缺陷。首先,GEPSVM和IGEPSVM中得经验风险是用L2-范数计算的,L2-范数中使用的是平方距离,对噪声和异常值具有敏感性,降低了其分类性能。其实上述两种非平行支持向量机并没有考虑数据的相关结构,当数据高度相关时,其分类能力降低。为了缓解上述问题,本文提出了一种用于噪声分类的迹模正则化鲁棒近端支持向量机(Robust Nonparallel Proximal Support Vector Machine,RNPSVM),在IGEPSVM的基础上,把L2-范数改为L1-范数,L1-范数是用绝对值之和来衡量的,降低了对噪声的敏感性,旨在最大化L1-范数的类间距离的同时,最小化L1-范数的类内距离,使其对异常值具有鲁棒性;通过考虑数据的相关性,引入了迹模(基于训练数据的自适应模)惩罚项,这个迹模惩罚项不仅具有稀疏性,在数据相关度较高时其分类性能也是很好。在GEPSVMs中可能遇到奇异值问题,通过修改模型可以避免出现奇异值问题;最后提出了一种有效的迭代算法,并且验证了其收敛性。在合成和现实噪声数据集上的广泛实验结果验证了RNPSVM的有效性。