论文部分内容阅读
随着信息技术的高速发展,模式识别在现实生活中的应用日益广泛,但是一些数据挖掘领域的算法只能处理离散属性值,而现实中的很多数据都呈现连续型,这将直接影响机器学习的效果。根据是否考虑数值的类别信息,离散化可分为有监督和无监督的方法。文献中对前者研究颇深并且效果较好,而后者仍具有挑战性。本文提出了一种基于集成学习的无监督离散化算法,并将其应用于聚类算法选择分析。基于集成的无监督离散化算法的主要思想如下:首先使用k-means对数据集进行划分可得到一些类别信息;然后使用有监督的方法对标签数据进行离散化,重复这两个过程便可得到多个离散结果;再应用集成学习的思想,从这些结果中得到最小子区间集合,最后根据相邻数据之间的相似性关系合并最小子区间,并且提出了两种有效的停止准则来终止合并过程。其中,合并的过程考虑了数据的邻居关系,这样尽可能地保持了数据集的内在结构关系。为验证算法的精确性,可将离散后的数据应用于聚类算法,如谱聚类,然后再评价聚类后的效果。实验结果表明,该无监督离散化算法比其他的四种方法聚类精度平均提高了约33%,验证了其可行性及高效性。聚类分析是数据挖掘等领域的重要工具,由于它是一个病态问题,尽管文献中有大量的聚类算法,但一个聚类算法通常仅适合某些特定的数据集,而用户对数据集并无先验知识,那么如何选择一个适合自身数据集的聚类算法,是一个棘手的问题。根据上述基于集成的离散化方法,本文定义了面向聚类算法特征的数据集相似性度量,并提出了聚类算法选择的框架。其主要思想如下:首先创建一个经典聚类算法空间与典型的数据集空间及两者之间的映射,然后对典型数据集及给定数据集进行二值化(针对离散数据进行处理,因此可应用前面提出的无监督的方法)及其稳定性分析,得到数据集的关于聚类的特征向量,再计算特征向量之间的相似性可得到给定数据集k个最邻近的数据集,最后将邻居的聚类算法推荐到给定的数据集。实验中选取七种经典的聚类算法,对给定的数据集进行聚类效果很好,表明该算法是有效可行的。