基于非平行超平面支持向量机的分类问题研究

被引量 : 0次 | 上传用户:chen009123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是人工智能,模式识别和机器学习领域研究的重要基本问题之一,1995年提出的支持向量机及其改进模型由于极小化结构风险,避免维数灾难,和核方法巧妙结合等特点成为目前国际上解决小样本分类问题最有效的算法之一.本文简要回顾和总结了现有各种支持向量机类型的算法和模型,从构造支持向量机分类器所需的一对辅助超平面出发,按照这对超平面是否平行和是否拟合样本的特点,将这些支持向量机类型的分类算法和模型归纳成四种类型,分别是:·平行分隔超平面支持向量机,如C型支持向量机和v型支持向量机;·平行拟合超平面支持向量机,如最小二乘支持向量机和中心支持向量机;·非平行分隔超平面支持向量机(简称NSSVM),如参数化间隔支持向量机和参数化间隔双子支持向量机;·非平行拟合超平面支持向量机(简称NFSVM),如广义特征值支持向量机和双子支持向量机.平行拟合和分隔超平面支持向量机的理论和算法研究已日趋成熟,但是这类算法和模型构造的分类超平面是通过寻找一对平行超平面分隔或拟合训练样本来实现的,在实际应用中由于采样和数据规模等原因导致并不是所有数据都能够很好的适应辅助超平面平行的要求,如交叉数据,异方差噪声数据,大规模数据等.数据作为一种已知输入,一般无法对数据的采样或质量上作过多要求,由于非平行超平面支持向量机(NSSVM和NFSVM)能够处理一些平行超平面支持向量机难以处理的数据类型,当前国际上研究的热点集中于NSSVM和NFSVM.本文在总结现有各种支持向量机类型算法和模型的基础上,重点研究了现有各种NSSVM和NF-SVM模型的分类方式和算法特点,并在此基础上提出一种NSSVM模型和三种NFSVM模型共四种新的分类算法,分别是:(1)基于光滑技术的参数化间隔双子支持向量机,这种算法改进了参数化间隔双子支持向量机的求解方式,将原始问题中的多个不等式约束条件统一改写成一个分段连续函数,并基于这种改写对目标函数作变量替换,使得原始算法从求解两个具不等式约束的凸二次优化问题转化成求解两个无约束凸二次优化问题,这样就可以使用光滑函数对目标函数的不可微点进行逼近,从而极大地加快模型的训练速度.模型的构造通过求解的如下优化问题:具体符号含义见符号表,下同.实验验证我们这种改进较普通的参数化间隔双子支持向量机训练速度加快了至少10倍,而且还能快速处理1M以上的数据.(2)基于中心化的参数化间隔支持向量机,这种算法改进了非平行超平面之间参数化间隔的定义,从原来参数化间隔支持向量机寻找的一对分隔超平面转化成一对拟合超平面,极大化重新定义的中心参数化间隔可以使原始算法从求解一个具有不等式约束的二次优化问题转化成求解一个只具等式约束的二次优化问题,从而可以通过求解一个线性方程组来构造模型,在保持模型适应异方差噪声特点的基础上极大地加快模型的训练速度.模型的构造通过求解的如下优化问题:人工数据和标准数据验证了我们这种算法较参数化间隔支持向量机不仅训练速度更快,而且分类能力更强.(3)基于最小二乘格式的参数化间隔双子支持向量,这种算法将最小二乘的思想引入到参数化间隔双子支持向量机中,寻找一对非平行拟合超平面拟合样本,并使得不同类的样本分别从两超平面的一侧远离,这种改进使得构造的模型能够更好的挖掘样本分布,对样本分布不同的各类别样本具有更强的适应性.模型的构造通过求解的如下优化问题:我们在人工数据和标准数据上进行了大量的实验,实验结果显示我们的算法较未改进前的参数化间隔双子支持向量训练速度有较大提高.(4)基于投影的正则化双子支持向量机,这种算法从降维的角度将正则项引入到投影双子支持向量机中,并给出了正则项在这种分类思想下对应的几何含义,从理论上得出这种算法也可以实现极小化结构风险.同时,正则项的引入还保证了原始优化问题解的唯一性,使得新得到的模型具有更强的稳定性和更高的泛化能力.模型的构造通过求解的如下优化问题:另外,本文还首次提出了非平行超平面支持向量机的模型设计框架,分别以双子支持向量机和参数化间隔双子支持向量机为例在模型概率输出方式,参数选择和特征选择方面提出了新的设计框架.(i)在模型的概率输出方面,本文前面介绍和提出的分类算法都是简单的二值硬分类算法,不存在相应的概率输出模型,而本文则为NFSVM设计了新的概率输出模型,通过引入了交叉分隔超平面的概念,帮助我们定义了样本类别的隶属度,从而可以利用似然函数给出样本输出类别的概率;(ii)在模型选择方面,我们将启发式算法引入到模型的参数选择和特征选择中,结合算法特点提出了一种同时进行参数选择和特征选择的启发式搜索框架,这种框架比传统的网格式搜索框架不仅搜索空间更大,而且搜索效率更高,还具有高度并行的特点,从而极大地提高了NSSVM模型选择的效率.值得一提的是,这两种模型设计框架都可以几乎没有任何困难的平移到其它NFSVM和NSSVM模型中.
其他文献
随着我国经济的飞速发展,国内储油罐趋向大型化发展。大型储罐具有节约钢材、占地少、投资低、便于操作管理等优点。油罐内储存的各种油品一般都具有易挥发、易流失、易燃烧
花粉不仅含有动物所需的各种营养物质,而且含有多种生理活性物质,如类黄酮、多肽、多糖等,具有防治心血管疾病、降血脂、调节神经系统机能、提高机体免疫功能、抗衰老、抗癌
乔治·奥威尔的作品《一九八四》预见性地揭露了权力所有者维持其统治的残酷方式,向人们展示了一个丑恶的极权主义世界。这部小说细致描述了其中一个普通人的生活,以此来揭示
目的设计马尔尼菲青霉菌种特异性引物,探讨马尔尼菲青霉病早期诊断的方法。方法采用真菌通用引物ITS1和ITS4 PCR扩增我科保存的2株和广西医科大学附一院惠赠的1株马尔尼菲青
我国现有的十四大“连片特困地区”经济社会发展问题是摆在我国整体经济社会发展前路上的难题。经济增长离不开金融发展,要利用金融发展解决“连片特困地区”的经济增长问题,需
目的探讨乙型肝炎病毒(HBV)发生YMDD基因变异与HBV基因型的关系。方法首先HBV 6个主要基因型(A~F)特异性多引物用巢式PCR法对175例接受拉米夫定抗病毒治疗患者的血清HBV DNA
政府作为社会的管理者,一直代表公众执掌社会公共权力,追求社会公共利益的最大化,然而现实中的各级政府往往基于自身利益的考虑,在日常事务的处理中想到的首先总是如何实现本
黑格尔用以构建自己哲学体系的基本原则是中介的、否定性的和矛盾的原则,因此,这个体系可以被恰当地称为思辨辩证法,而思辨辩证法就是黑格尔的本体论,换言之,他的方法论意义
本文以丙烯酸(钾)、丙烯酰胺、丙烯酸铵其中的一种或两种单体与明胶接枝共聚合成可生物降解性高吸水性树脂,明胶为可完全生物降解的天然高分子材料,其与各种单体聚合后所得的树
目的:详细介绍基于3G双处理器远程心电实时监护系统总体设计框架,以及各个具体功能模块的设计方法。方法:综合运用3G技术、网络技术、多媒体技术等技术,以高性能刑S302VC5402芯片