基于样本压缩的支持向量机分类研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:sxz123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于统计学习理论的机器学习的方法——支持向量机(SVM),有着很好的数学理论基础和泛化性,已经广泛应用到模式识别、数据挖掘等研究领域。它通过引入核函数的方法,把线性不可分的分类的问题通过核函数转换到高维特征空间中来解决,从而在一定程度上降低了算法的复杂度。但是,支持向量机在分类过程中,还存在着一些问题,例如当训练样本数目很大时,模型算法中求解的二次规划的问题就显得比较复杂,计算速度也会变慢。因此,考虑在对样本分类之前,对样本进行筛选删减,通过预先选取那些最有可能成为支持向量的靠近分类边界样本来替代所有样本进行优化训练,从而达到减少训练样本的目的,就能够在一定程度上减少这个问题的发生,既能加快训练速度,又能尽量保证分类精度不受影响。本文主要通过分析支持向量机的基础理论,提出了一种基于模糊C均值聚类和多元高斯概率密度分布相结合的样本压缩方法,对训练样本进行压缩,来加速支持向量机的分类。   本论文的主要工作包括:   1.简要分析了样本压缩方法的研究背景。   2.主要分析支持向量机的基础理论及其分类问题的数学描述。SVM分类问题可以归结为通过对样本的优化分析,寻找一个最优决策函数的问题。同时还对不同参数的选择方法进行了详细的对比分析。   3.提出了一种基于模糊聚类和高斯概率密度函数相结合的样本压缩的方法。其主要思路是首先对训练样本按照类别进行模糊C均值聚类,再对每一个聚类簇使用多元高斯分布模型进行分析,将分布转换为概率密度函数值,通过函数值大小对样本进行删减。该方法有效保留了边界样本,因此并没有改变分类准确率。   4.介绍了基于样本压缩的支持向量机分类的工作原理、流程、和算法,以及本文实验方法的软件环境。   5.对上述方法进行仿真实验,通过压缩后的效果与不压缩的效果进行对比分析,包括对二维可视实验,和高维数据的压缩的实验。实验表明该方法能够在不降低分类准确率的情况下能够对样本进行有效压缩。
其他文献
欠驱动系统是指系统的控制输入变量个数小于系统自由度个数的一类非线性系统,其特点是输入空间维数小于构造空间维数.由于在系统设计时,省去不必要的驱动器,系统设计的复杂程
自20世纪70年代以来,人们就在利用镜质体反射率Ro来恢复盆地的热史,随着研究的不断深入发展,在盆地热史恢复中,镜质体反射率应用得越来越广泛。   本文对镜质体反射率热史恢复
本文为一篇配边理论的综述。第一部分主要介绍Pontrjagin的标架配边,Thom的实配边理论及由此推广出的复,四元数的配边理论,更一般的,具有结构群G作用的配边理论;然后举出一些
学位
滑动扫描技术由于缩短了相邻两炮的滑动时间,使得生产效率得到很大提高。但是同时也使得后一炮中的谐波畸变对前一炮的基波产生影响,降低了地震资料的质量。本文假定高次谐波
本文对计算机图形图像计算中的若干数学方法进行了深入研究与实践,提出了三种新算法:无网格PDE数值求解,曲面上单侧逼近曲线的构造,去除图像马赛克计算。   (1)在计算机图
随着信号处理理论的发展,非平稳和非线性信号成为信号处理理论的热点,然而主要的方法都是以积分变换为主。经验模式分解是一种新颖的信号分解算法,该算法打破了传统非平稳信
目前处理非参数零维理想运算的理论和算法已经比较成熟,但是处理含参数的零维理想的运算还有很大的研究空间,在本文中,我们将著名的MMM算法推广到含参数的零维理想的情况下,
非阿基米德动力系统是目前国际上广受关注的新方向,涉及(复)动力系统、数论和代数等多个方向.全纯非阿基米德动力系统始于1981年菲尔茨奖得主Yoccoz和Herman等人的研究,目前
流动性是证券市场的生命力所在,关于流动性的各种学术研究也是金融市场微观结构理论中的热点问题。本文主要考察资产流动性、盈余质量与股票流动性的关系,首先,公司的资产流