论文部分内容阅读
支持向量机算法是在结构风险最小化基础上发展起来的,它避免了以往神经网络学习过程中出现的过拟合、易陷入局部极值和维数灾难等诸多问题,目前在许多领域得到了很好的运用。经典的支持向量机算法是分类算法中发展较早的一个,但是它对标识样本的数量有较强的依赖性,然而在实际工作中,由于标识样本的代价较大,因此只有少数样本是被标识的,大多数是未标识的。现如今,一种新颖的半监督学习算法,因其能够将已标识和未标识样本提供的聚类信息有机结合起来,与已往的监督分类算法相比,对标识样本的数量要求不高,而且在实际运用中获得了更好的效果,因为这个优势,这种半监督学习方法吸引了越来越多研究者的眼球。当前对半监督支持向量机算法的改进主要集中在利用一些约束函数将未标识样本的信息加入到优化过程中,但这种模拟在不同程度上都存在对噪声过于敏感和本身算法的优化难题。从处理这些问题的角度出发,本文提出一种基于两阶段学习的半监督支持向量机分类算法,利用图模型给未标识样本赋予伪标识,接着为了削弱噪声样本的影响,采用k近邻图去除噪声样本,然后将标识样本和伪标识样本作为整个训练样本集,运用SVM算法进行训练学习,使得SVM算法在训练时能充分利用未标识样本带来的结构信息,提高分类器的分类精度。同时本文从构建图模型的角度出发,还提出了一种基于高斯混合模型核的半监督支持向量机分类算法。通过构造高斯混合模型核向SVM分类器提供未标识样本信息,使得SVM算法在学习标识样本信息的同时,兼顾着整个训练样本集合的聚类假设。结果证明本文提出的两种算法在拥有较少标标识样本训练的情况下分类性能也有所提高且具有较高的可靠性。本课题首先在理论上对本文提出的两阶段学习模型和高斯混合模型的可行性进行论证,然后利用人工合成样本集和UCI样本集分别对两种算法的分类性能进行测试,并与已有的半监督支持向量机算法进行实验比较,验证了本文所提模型的优势。本课题还利用两阶段学习模型算法对轴承故障样本集进行检测性能测试,实验结果表明该模型的检测性能较其他几种算法好,并测试算法中重要参数对算法性能的影响。