论文部分内容阅读
当今世界数据量的剧增使得学者们针对数据处理做了许多研究,数据挖掘技术应运而生,聚类算法是数据挖掘技术的一种。聚类算法的目标是将一组没有先验知识的数据进行分类,这对于现实世界的数据处理非常有意义,因此许多学者在聚类算法领域做研究。模糊C均值聚类算法是聚类算法中应用最广泛的算法,该算法通过定义隶属矩阵解决了硬聚类算法中数据“非此即彼”特点的不现实性。由于模糊C均值聚类算法需要提前设置分类个数,这对于处理一个没有先验知识的数据集几乎是不可能实现的,因此有学者提出了有效性指标的概念。本文针对模糊聚类算法的有效性指标做了研究和改进,提出一种新的有效性指标函数,通过该有效性指标结合模糊C均值聚类算法即可有效的判定待处理数据集的分类个数。在实际应用方面,本文对图像处理中的色彩量化进行研究,引入这种基于模糊聚类的有效性指标从而解决了色彩量化算法中需要提前设定色彩数量的缺陷,并通过实验证明了该方法的有效性。本论文的主要成果和创新点如下:首先,针对传统距离计算方法的缺点,引入样本相似度度量方法。由于有效性指标考察了隶属矩阵、数据点之间的距离和数据点与聚类中心点之间的距离关系,因此本文引入新的样本相似度度量方法从而更加全面的考察点之间的距离关系,并将其与传统的距离计算方法对比证明了该方法的优越性。其次,通过样本相似性度量方法,改进了紧凑性指标和分离性指标。结合特征权重度量方法、新的紧凑性指标和分离性指标,设计了新的有效性指标,并应用于人工数据集和真实数据集从而验证该指标的合理性。最后,在实际应用中,将新的有效性指标应用于图像处理中的色彩量化。通过对彩色图片处理,判断待处理图片中的色彩情况,并将其分类进而得到最合适的色彩个数,生成新的调色板重绘图像。本文将该有效性指标应用于生物界的花朵和蝴蝶图片中,通过实验验证了该有效性指标的合理性。