论文部分内容阅读
回归和分类是对数据进行定量分析的常用方法。在对数据进行分析时,通常建立回归模型来分析解释变量与响应变量之间的关系,但响应变量是属性指标时,常用的定量回归分析方法变得不再适用,此时需要建立Logistic回归模型来分析解释变量与响应变量之间的关系。Logistic回归模型也适宜于解决数据的分类问题。现阶段分类算法已有很多种,Logistic回归和支持向量机(SVM)是其中的两种。Logistic回归模型对数据进行分类是以概率值的大小来判别,它具有适应性强、稳健性和模型的解释性好等优点;SVM的主要优点是预测精度较高,在解决小样本、非线性和高维数等问题时有很好的表现。现阶段采用多分类算法对数据进行多类别的分类已成为研究的重点。传统的多分类Logistic回归(MLR)模型是以输出概率值作为分类标准,特别是多个分类概率在1/K附近时(K为分类数),具有较大的误判可能。为了解决这个问题,本文将多分类SVM(MSVM)引入到MLR模型中,提出了集成Logistic回归和SVM的多分类(MLR-MSVM)算法,将MSVM的输出结果作为MLR输出概率的支持理念,从而降低误判风险,提高分类判别的准确性和求解的效率。本文采用UCI机器学习库中的数据还进行了实证分析,将MLR、MSVM以及本文提出的MLR-MSVM算法的三种实验结果加以比较,实验结果表明该集成算法具有较好的稳健性和分类效果,是一种有效的算法。