论文部分内容阅读
数据挖掘是一个多学科交叉研究领域,与机器学习和统计学紧密相关。作为数据挖掘核心内容之一的聚类是将物理或抽象对象的集合聚成由类似对象组成多个类的过程。这种方法所具有的“无监督”性,使它在机器学习、模式识别等众多领域有着重要的应用。近年来,随着统计学习理论的不断完善,基于核学习的方法不断提出。本文以聚类相关理论为基础,用核学习方法来处理数据挖掘中的聚类问题,并重点对核K-均值聚类算法和支持向量聚类算法进行研究。核K-均值算法首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,然后在这个核空间中进行K-均值聚类。由于经过核函数的映射,使原来没有显现的特征突现出来,从而能够更好的聚类。在统计学习理论的基础上,支持向量机是20世纪90年代中期提出的一种新的机器学习方法,它将最大间隔原则和核函数理论结合在一起,有效解决了机器学习领域中的高维小样本学习难题。支持向量聚类是一种基于支持向量机的新颖聚类方法,与其它传统聚类方法相比较,该方法可调参数少,容易处理高维数据,能得到全局最优解,具有能处理任意形状的聚类且无需指定聚类数目等优点。本文主要研究成果包括如下几个方面:(1)研究了层次聚类,K-均值聚类和自组织映射聚类3种经典聚类算法。(2)基于经典的K-均值聚类算法和支持向量机理论,在核学习方法基础上,研究了核K-均值聚类算法以及支持向量聚类算法,并给出了一种改进的支持向量聚类算法。(3)为验证算法的有效性,使用人工数据集和标准数据集研究了核K-均值聚类算法以及支持向量聚类算法的性能。通过算法在不同参数下的性能分析,以及与经典聚类算法的比较实验,结果表明,上述基于核学习方法的聚类算法具有算法稳定性好,且聚类效果理想的显著优势。