论文部分内容阅读
海量数据是数字时代明显的特征,数据大规模增长使得数据处理变得异常困难,样例选择是处理海量数据的主要方法之一。样例选择的目的是去除原始数据集中的冗余样例和噪音样例,从而得到一个能够代表原数据集的小规模子集。传统的样例选择算法大多是针对某一种分类器而设计的,因此其结果往往也只适用于这种类型的分类器。此外,随着数据集规模的增长,经典的样例选择算法难于处理大规模数据集,高效率的样例选择算法,特别是针对大数据集的样例选择算法成为近几年的研究热点。本文针对较大数据集分类问题,提出了能够用于不同分类器的样例选择算法,该算法基于分治和交叉验证的思想进行样例选择。具体地,首先将数据集分为若干不相交的子集,对于每一个数据集,用其他子集训练出的分类器组成委员会,对该子集进行样例选择。针对输出为后验概率的分类器使用K‐L散度度量样例的重要性,针对其他分类器使用投票熵度量样例的重要性。当使用速度快的ELM分类器时,本文提出的算法能够快速处理较大规模的数据集。为了验证本文算法的有效性,在19个数据集上进行了实验,并与经典的样例选择算法(CNN、ENN、RNN、MCS和ICF)在时间、精度和压缩比等方面进行了实验比较。实验验证了交叉样例选择算法在多种分类器上应用的可行性,并能够快速处理较大规模的数据集,得到压缩比更高的子集。