论文部分内容阅读
伴随着信息技术的飞速发展和广泛应用,海量的高维数据被冗余地存储,如何从数据的沙漠中挖掘出宝贵的知识业已成为当前最迫切的需求。聚类(Clustering)分析作为数据挖掘领域中的一个重要分支,研究从海量未知数据中挖掘出有用的知识,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。然而,现实世界中数据的高维、分布稀疏及不可避免的噪声普遍存在,特别是数据的变密度分布,使得传统聚类算法难以使用。为此,设计能高效处理变密度高维数据的聚类模型和算法成为本文的研究核心。本文的主要工作如下:(1)深入探讨和分析了聚类分析的概念、要求及所用数据类型,详细介绍各聚类方法的思想、原理及实现,及其各自的优势与存在的不足。(2)针对基于密度聚类算法的优势及其存在的不足和缺陷,引入层次树模型描述子聚类信息并利用基于密度的聚类思想进行聚类探测,形成算法DCHT。算法不仅具备基于密度聚类的优势性能,而且从根本上摒除该类算法因结构设计粗糙而导致的种种不足。(3)针对传统聚类方法难以处理变密度空间聚类的现状,引入改进的层次树结构描述数据集分布信息,并动态、自适应地调整局部参数来处理变密度高维聚类难题,形成SVC算法。理论和实验共同验证了以上所提两种算法的有效性和高效性。