论文部分内容阅读
支持向量机(SVM)回归算法因其良好的小样本学习能力,方便简洁的非线性处理能力,以及收敛过程无局部最小等优点赢得了学术界的广泛关注。它以最小化结构风险为目标,以求解二次规划问题为途径,有效获取样本集中的统计信息。然而由于损失函数的限制,多数SVM回归算法并不具备完善的稳健性,即容易受到异常样本的影响而产生有偏的学习结果。因此,本论文着眼于噪声环境下的SVM回归算法,在降低噪声数据对SVM回归算法的负面影响以及提高SVM回归算法的自身稳健性两个方面进行了深入的研究,获得了一些有意义的成果。具体而言:
首先,从数据“预处理”的角度设计良好的算法减少噪声数据对SVM回归算法的负面影响。针对包含噪声的大规模样本集,本论文采用分层聚类的方法对训练样本进行预处理。利用聚类后所获得的类密度信息,区分异常样本类和正常样本类;并将聚类过程分解到各层子集合中进行,以减少算法的复杂度,提高预处理的速度。对于这种分层聚类的数据预处理方法,本论文通过基准仿真数据集上的测试说明了其有效性及快速性。
其次,对于异常样本比例较小的数据集,着重研究了异常样本“软剔除”的方法,即加权的方法。由于传统的加权SVM回归算法(以Suykens等人的WLS-SVM算法为代表),是基于回归训练本身的结果对样本进行区分,这在学习结果已有偏差的情况下将导致错误的权重设置;此外,传统的加权SVM回归算法还要求重新训练SVM回归机,这将造成运算量的急剧增加。为解决这两个问题,本论文分别基于核距离信息以及样本异常程度信息为WLS-SVM回归算法设计了两种新的加权方法,并且采用数值方法找到了LS-SVM学习矩阵与WLS-SVM学习矩阵之间的关系,从而据此设计了一种快速算法大幅度减少WLS-SVM回归机的运算复杂度。论文中通过多个仿真数据集和实际数据集上的测试说明了所提出算法的有效性及快速性。
再次,由于加权的方式毕竟是一种过于温和的方式,随着样本集中异常样本比例逐渐增大时,异常样本“软剔除”的方案对SVM回归算法稳健性的改善效果逐渐减弱,甚至于完全失效。因此对异常样本比例较大的数据集,需要使用“直接剔除”的方法来消除异常样本的影响。本论文就此提出了两种基于异常样本“直接剔除”的稳健LS-SVM回归算法。这两种算法创新性地采用“学习->剔除->再学习”的循环方式对异常样本进行逐步剔除,以达到消除异常样本影响,纠正训练结果,提高算法稳健性的效果。两种算法中分别采用了不同的异常样本检测策略,从而适用于不同的噪声分布情况。本论文提供了详尽的数据实验来说明这两种算法的应用价值,为设计稳健SVM回归算法提供了一种新的思路。
最后,以实时视频监控中的背景/前景分割问题为切入点,将视频流视为时间序列,采用稳健的LS-SVM回归算法对动态背景进行自适应学习,从而为前景的区分提供有效的参考信息。本论文总结了这一应用尝试中颇具参考意义的实验结果,阐明了稳健LS-SVM回归潜在的应用前景,同时也从另一个方面说明了稳健LS-SVM回归算法优良的学习能力。