论文部分内容阅读
基于统计学习理论的机器学习的方法——支持向量机(SVM),有着很好的数学理论基础和泛化性,已经广泛应用到模式识别、数据挖掘等研究领域。它通过引入核函数的方法,把线性不可分的分类的问题通过核函数转换到高维特征空间中来解决,从而在一定程度上降低了算法的复杂度。但是,支持向量机在分类过程中,还存在着一些问题,例如当训练样本数目很大时,模型算法中求解的二次规划的问题就显得比较复杂,计算速度也会变慢。因此,考虑在对样本分类之前,对样本进行筛选删减,通过预先选取那些最有可能成为支持向量的靠近分类边界样本来替代所有样本进行优化训练,从而达到减少训练样本的目的,就能够在一定程度上减少这个问题的发生,既能加快训练速度,又能尽量保证分类精度不受影响。本文主要通过分析支持向量机的基础理论,提出了一种基于模糊C均值聚类和多元高斯概率密度分布相结合的样本压缩方法,对训练样本进行压缩,来加速支持向量机的分类。
本论文的主要工作包括:
1.简要分析了样本压缩方法的研究背景。
2.主要分析支持向量机的基础理论及其分类问题的数学描述。SVM分类问题可以归结为通过对样本的优化分析,寻找一个最优决策函数的问题。同时还对不同参数的选择方法进行了详细的对比分析。
3.提出了一种基于模糊聚类和高斯概率密度函数相结合的样本压缩的方法。其主要思路是首先对训练样本按照类别进行模糊C均值聚类,再对每一个聚类簇使用多元高斯分布模型进行分析,将分布转换为概率密度函数值,通过函数值大小对样本进行删减。该方法有效保留了边界样本,因此并没有改变分类准确率。
4.介绍了基于样本压缩的支持向量机分类的工作原理、流程、和算法,以及本文实验方法的软件环境。
5.对上述方法进行仿真实验,通过压缩后的效果与不压缩的效果进行对比分析,包括对二维可视实验,和高维数据的压缩的实验。实验表明该方法能够在不降低分类准确率的情况下能够对样本进行有效压缩。