论文部分内容阅读
在信息时代里,人类需要在非常大量的信息中挖掘潜在信息,其中聚类分析是重要的手段之一。在数据挖掘领域中,聚类分析是很重要的一块内容。由于技术的发展,需要处理的数据的数量增长快速,维度相比从前也增加很多,数据的结构类型变得更加复杂多样,因此聚类分析技术的发展面临着严峻的考验。传统的聚类分析技术可以分为基于层次的、基于划分的、基于网格的、基于密度的、基于模型的等五种类型,经过长时间的发展,学者们又提出了基于熵的聚类、谱聚类、不确定聚类等技术。但大多聚类分析算法缺乏普适性,在处理具有复杂多样的数据结构的数据集时常出现陷入局部极小的问题。近年来,随着对神经网络技术研究的复兴,学者发现该技术对不确定性信息的处理能力强,具有非常强的鲁棒性,其中属于无监督学习的弹性网络算法具有良好的几何性质,可以针对一个具体的目标函数进行求解,与聚类问题的定义非常契合,因此本文在弹性网络算法的基础上进行了研究,将该网络应用在聚类分析领域中。本文的主要工作内容和成果如下:1、由于原始弹性网络算法仅用于求解TSP问题,因此首先提出基于极大熵的弹性网络聚类算法(Elastic Net of Clustering based on Maximum entropy,ENCM)。根据聚类的定义,更改弹性网络算法的目标函数,在没有先验知识的情况下,采用极大熵原理确定数据集的概率分布。在弹性网络框架下,模拟物理系统,利用确定性退火技术使系统升降温,控制网络活性,并利用最速下降法追踪最小值。2、在聚类分析算法中,数据集的数量与维度等特性对聚类过程的影响很大。针对聚类中出现的易受噪声干扰、多维等问题,提出具有加权特性的弹性网络聚类算法(Weighting of the Elastic Net for Clustering Algorithm,WENC)。根据聚类的目的,遵循当特征属性更离散时对聚类的意义更小的原则,计算数据集中各个维度在聚类过程中所占比例,即权值。分析弹性网络算法的特性,设计一种合适的加权方法,使网络在运行过程中,减少噪声的干扰,优化聚类质量。本文实验的数据集包括随机生成和从UCI数据库中选取两种,将提出的算法分别应用于这些数据中进行实验,并和其他较为典型的方法对比分析。实验表明两种算法均可以很好的求解聚类问题,且在运行时间和聚类质量上WENC算法比ENCM算法的好。WENC算法无需人工指导训练,可以自学习的求解出质量比较高的聚类方案。通过对不同维度、不同数量级的数据集,不管是随机产生的还是从数据库中选取的,都验证了算法的有效性和稳定性。相较于传统的算法,本文提出的方法显著的提高了聚类质量。