论文部分内容阅读
近邻分类是机器学习的重要研究内容之一。其中K近邻分类算法是一种非常典型的非参数懒惰学习方法,因其简单有效等特性被广泛应用于各个领域。但是它存在的弊端也逐步显现,其中包括数据集里面存在大量的冗余和噪声数据会严重影响分类精度;在面对实例数量较多的数据集或者数据集维度较高的时候,其计算消耗巨大。这就需要通过数据预处理来改善数据样本的整体质量,其中数据缩减是数据预处理的有效手段之一。实例选择作为常用的数据缩减方法,它可以有效的缓解以上的弊端。现有的面向K近邻分类的实例选择算法取得了很多成果,但是还存在误删数据集中非冗余和非噪声样本,以及面对大规模数据集的时候算法效率低下等不足。本文针对以上面向K近邻分类算法存在的不足,为了能够提高K近邻分类器的分类效率,通过对众多实例选择算法的研究和分析并结合进化计算,设计了相应的两种智能优化算法。主要研究工作如下:1.将实例选择中涉及到的一些相关定义和问题进行了归纳总结。然后给出了实例选择算法的不同分类方式,阐述了实例选择问题和近邻分类的关系并且对传统的面向近邻分类的实例选择算法进行简单的介绍。随后从进化算法的角度来介绍其解决实例选择问题的过程并且详细介绍了相应的进化实例算法模型,最后对进化实例选择算法的其它相关技术进行简单的阐述。2.针对面向K近邻分类的实例选择过程中存在冗余和噪声数据影响分类性能的问题,本文提出了一种面向K近邻分类的合作协同进化实例选择算法(NNC-CoCo)。算法中进化实例选择过程中采用多点交叉策略来进一步提高实例选择的准确性,同时对实例加权和特征加权使用快速突变策略,并且与实例选择进行合作协同来去除噪声和冗余实例,从而选择出最佳的训练子集,最终使K近邻分类器的性能得到了提升。实验结果表明,此方法相比较当前的一些进化实例选择算法在分类准确率和效率上均具有优势。3.针对进化实例选择算法在实例数量较多的数据集中所需时间呈指数增长并且存在算法效率低下的问题,本文提出了一种面向K近邻分类的分层进化实例选择算法(EIS)。首先采用分层随机抽样的思想划分数据集,其次让两个独立种群相互协同进化,然后在标准遗传算法上采用基于局部搜索变异的策略和基于精英个体替换策略,选择出合适的训练子集进行正确的分类。该方法于当前的一些经典实例选择算法在部分实例数量较多的数据集中分类效率和存储率上均具有优势。