论文部分内容阅读
在机器学习领域中,间隔从距离角度对分类置信度进行刻画,用于估计分类学习算法的泛化错误界和指导分类算法的设计,已广泛的应用于指导特征选择、分类器训练和集成学习。然而传统的大间隔分类学习方法抗噪性差,当训练样本中存在个别大噪声数据时,分类边界将会受其影响而偏离正确的位置。针对这一问题,本文从特征选择和分类器构建两大角度出发,分别提出了基于间隔的鲁棒的特征选择方法和支持向量机训练算法以及多分类器集成学习方法,提高了KNN(KNearestNeighbor)和支持向量机分类的鲁棒性,具体的研究工作如下:(1)在传统大间隔近邻特征选择中,包含异类噪声点的目标邻域需要分类间隔来指导其邻域的距离学习,但该分类间隔是通过最近邻规则得到的;当目标邻域中存在多个噪声点时,分类间隔鲁棒性差。针对上述问题,本文提出了一种基于鲁棒的间隔统计量的特征选择方法。该方法首先寻找包含异类噪声点的目标邻域,然后计算目标邻域中心点到所有同类和异类样本的距离,采用分类间隔中位数作为优化目标,指导特征权学习,提高了近邻分类的鲁棒性。(2)目前基于分类间隔损失的特征选择方法在处理大噪声样本时,惩罚误分样本的分类损失函数值非常大,导致优化模型的解随噪声产生较大的扰动,降低了算法的鲁棒性。针对上述问题,本文引入了一种鲁棒的损失函数(Brownboost损失)来建立优化目标。由于Brownboost损失具有非凸性,因此将优化目标与正则化技术相结合提出了基于梯度下降的特征权学习算法,提高了支持向量机的抗噪能力。(3)由于现有鲁棒的支持向量机训练算法中鲁棒的损失函数(斜坡损失)存在非凸性,导致其训练时间复杂度较高且分类鲁棒性需进一步改善的问题,本文提出了一种基于光滑截断损失的鲁棒的支持向量机训练方法。该方法首先对斜坡损失进行光滑近似并将其转化为一个光滑的凸函数与一个光滑的凹函数之和的形式,然后采用CCCP(Concave-ConvexProcedure)来求解这一问题,最后利用牛顿梯度下降法来实现其快速的学习,增强了原有算法的分类鲁棒性并提高了其训练速度。(4)由于故障诊断数据中特征维度较高、样本数量较多、类别不平衡并普遍包含噪声的特点,单一的分类学习方法无法满足其抗噪性能的需求,本文提出了一种基于间隔的鲁棒的分类集成学习模型。该模型将训练阶段的集成学习任务分成了四个阶段:随机采样阶段、特征选择阶段、基分类器学习阶段和加权投票阶段。在集成学习的不同阶段融合不同抗噪技术。在分类融合时采用平方损失和L1正则化技术来学习稀疏的基分类器的权值,用其来指导测试阶段的分类预测结果,提高了预期分类的鲁棒性。