论文部分内容阅读
分类问题是人工智能,模式识别和机器学习领域研究的重要基本问题之一,1995年提出的支持向量机及其改进模型由于极小化结构风险,避免维数灾难,和核方法巧妙结合等特点成为目前国际上解决小样本分类问题最有效的算法之一.本文简要回顾和总结了现有各种支持向量机类型的算法和模型,从构造支持向量机分类器所需的一对辅助超平面出发,按照这对超平面是否平行和是否拟合样本的特点,将这些支持向量机类型的分类算法和模型归纳成四种类型,分别是:·平行分隔超平面支持向量机,如C型支持向量机和v型支持向量机;·平行拟合超平面支持向量机,如最小二乘支持向量机和中心支持向量机;·非平行分隔超平面支持向量机(简称NSSVM),如参数化间隔支持向量机和参数化间隔双子支持向量机;·非平行拟合超平面支持向量机(简称NFSVM),如广义特征值支持向量机和双子支持向量机.平行拟合和分隔超平面支持向量机的理论和算法研究已日趋成熟,但是这类算法和模型构造的分类超平面是通过寻找一对平行超平面分隔或拟合训练样本来实现的,在实际应用中由于采样和数据规模等原因导致并不是所有数据都能够很好的适应辅助超平面平行的要求,如交叉数据,异方差噪声数据,大规模数据等.数据作为一种已知输入,一般无法对数据的采样或质量上作过多要求,由于非平行超平面支持向量机(NSSVM和NFSVM)能够处理一些平行超平面支持向量机难以处理的数据类型,当前国际上研究的热点集中于NSSVM和NFSVM.本文在总结现有各种支持向量机类型算法和模型的基础上,重点研究了现有各种NSSVM和NF-SVM模型的分类方式和算法特点,并在此基础上提出一种NSSVM模型和三种NFSVM模型共四种新的分类算法,分别是:(1)基于光滑技术的参数化间隔双子支持向量机,这种算法改进了参数化间隔双子支持向量机的求解方式,将原始问题中的多个不等式约束条件统一改写成一个分段连续函数,并基于这种改写对目标函数作变量替换,使得原始算法从求解两个具不等式约束的凸二次优化问题转化成求解两个无约束凸二次优化问题,这样就可以使用光滑函数对目标函数的不可微点进行逼近,从而极大地加快模型的训练速度.模型的构造通过求解的如下优化问题:具体符号含义见符号表,下同.实验验证我们这种改进较普通的参数化间隔双子支持向量机训练速度加快了至少10倍,而且还能快速处理1M以上的数据.(2)基于中心化的参数化间隔支持向量机,这种算法改进了非平行超平面之间参数化间隔的定义,从原来参数化间隔支持向量机寻找的一对分隔超平面转化成一对拟合超平面,极大化重新定义的中心参数化间隔可以使原始算法从求解一个具有不等式约束的二次优化问题转化成求解一个只具等式约束的二次优化问题,从而可以通过求解一个线性方程组来构造模型,在保持模型适应异方差噪声特点的基础上极大地加快模型的训练速度.模型的构造通过求解的如下优化问题:人工数据和标准数据验证了我们这种算法较参数化间隔支持向量机不仅训练速度更快,而且分类能力更强.(3)基于最小二乘格式的参数化间隔双子支持向量,这种算法将最小二乘的思想引入到参数化间隔双子支持向量机中,寻找一对非平行拟合超平面拟合样本,并使得不同类的样本分别从两超平面的一侧远离,这种改进使得构造的模型能够更好的挖掘样本分布,对样本分布不同的各类别样本具有更强的适应性.模型的构造通过求解的如下优化问题:我们在人工数据和标准数据上进行了大量的实验,实验结果显示我们的算法较未改进前的参数化间隔双子支持向量训练速度有较大提高.(4)基于投影的正则化双子支持向量机,这种算法从降维的角度将正则项引入到投影双子支持向量机中,并给出了正则项在这种分类思想下对应的几何含义,从理论上得出这种算法也可以实现极小化结构风险.同时,正则项的引入还保证了原始优化问题解的唯一性,使得新得到的模型具有更强的稳定性和更高的泛化能力.模型的构造通过求解的如下优化问题:另外,本文还首次提出了非平行超平面支持向量机的模型设计框架,分别以双子支持向量机和参数化间隔双子支持向量机为例在模型概率输出方式,参数选择和特征选择方面提出了新的设计框架.(i)在模型的概率输出方面,本文前面介绍和提出的分类算法都是简单的二值硬分类算法,不存在相应的概率输出模型,而本文则为NFSVM设计了新的概率输出模型,通过引入了交叉分隔超平面的概念,帮助我们定义了样本类别的隶属度,从而可以利用似然函数给出样本输出类别的概率;(ii)在模型选择方面,我们将启发式算法引入到模型的参数选择和特征选择中,结合算法特点提出了一种同时进行参数选择和特征选择的启发式搜索框架,这种框架比传统的网格式搜索框架不仅搜索空间更大,而且搜索效率更高,还具有高度并行的特点,从而极大地提高了NSSVM模型选择的效率.值得一提的是,这两种模型设计框架都可以几乎没有任何困难的平移到其它NFSVM和NSSVM模型中.