论文部分内容阅读
支持向量机(SVM)作为机器学习中一种常见且有效的分类器,已经成功地用于各种分类学习中,从模式挖掘到计算机视觉,从医学诊断到信息检索。尽管SVM具有坚实的理论基础和良好的泛化性能,但它也具有一些缺点,其中之一就是其训练复杂度比较高,复杂度为O(n~2)甚至O(n~3)(n是训练集中的实例数)。在当今社会,随着可用数据越来越多,这种问题显得越发突出,为了解决该缺点,一种数据预处理技术,实例选择已经被提出。实例选择作为机器学习和数据挖掘中重要数据预处理技术之一,其主要目的是从原先的数据集中选出一个子集,利用该子集学出与原始数据集类似或者更高精度的分类器模型。与此同时,由于仅使用部分训练数据,模型的训练过程变得更加高效。据此,很多利用不同优化的技术的SVM实例选择方法被提出,其中演化计算作为一种全局收敛性算法,无需对目标函数和训练数据有任何假设,成为当前实例选择的研究热点。已有的基于进化多目标的实例选择算法虽然可以获得不错的分类精度或压缩率。但是这些算法要么精度比较高,但压缩率(删除的实例数数目)较低,要么压缩率比较高,精度较差。因此如何得到压缩率高精度也高的实例子集就显得至关重要。据此本文提出了一种基于子区域划分的进化多目标SVM实例选择算法(SDMOE A-TSS)来同时获得具有高精度和高压缩率的SVM训练子集。另一方面,用进化多目标来解决SVM实例选择问题时,由于对于每一个个体的评价需要训练一个SVM分类器,且需要循环迭代多次,这样会使得算法计算效率较为低下。那么如何在不降低SVM实例子集分类精度的前提下,设计高效的进化实例选择算法也是当前研究的一个重要挑战。因此本文提出了一种基于聚类代理评价的高效进化多目标SVM实例选择算法(CSE-IS)来减少实例真实评价,提高算法效率。基于以上提出的两个SVM实例选择算法。本文的主要工作包括以下两个部分:(1)本文提出了一种基于子区域划分的进化多目标优化SVM实例选择算法(SDMOEA-TSS),算法的主要思想是通过对目标空间的解进行子区域划分,在每个子区域设计了不同的交叉变异算子,最终得到一组Pareto解。该算法主要包括二个策略:1、基于子区域的初始化策略:该策略通过采用不同的选择概率去生成初始种群,然后将初始种群通过目标空间划分到相应的子区域;2、基于子区域的演化策略:针对每个不同子区域设计了不同的进化算子,主要三种。基于子区域的交叉算子,基于子区域的变异算子,和基于子区域的更新算子。实验结果相比起已有基于进化计算的SVM实例选择算法,SDMOEA-TSS算法本身具有更好的收敛性和多样性的均衡,同时在精度(Accuracy)和压缩率(Reduction rate)两指标上均能获得更好的结果。(2)本文提出了一种基于聚类代理评价的高效进化多目标SVM实例选择算法(CSE-IS)。算法主要思想是通过对实例空间聚类初始化,且在进化过程中对种群中个体进行编码聚类,利用代理评价减少算法真实评价。该算法主要包括两个策略:1、基于实例空间聚类的初始化种群策略:该策略通过对原始实例数据进行空间聚类,在每一个簇中以一定概率选择部分实例,循环迭代多次,构建初始种群。2、基于种群个体编码聚类的代理评价策略:该策略通过对子代中的每个个体的编码进行聚类分簇,在每个簇中得到父代(适应度函数排序)和子代的数目,根据父代的适应度值排序来确定子代当前个体的适应度排序,继而选出前一半适应度值比较好的个体进行SVM训练评价。这种算法可以有效减少训练集真实评价次数,加速算法搜索。同时实验结果表明CSE-IS算法不仅可以大大较少训练时间同时可以获得具有较好性能的实例子集。