论文部分内容阅读
传统的聚类技术都是使用数据所有的属性来发现簇。但随着聚类技术应用范围的不断扩大,特别是近年来对气候研究、心理学、电子商务、基因表达谱等数据的分析应用,使用所有属性聚类的传统方法已不能满足对现代数据分析的要求。现代数据的一个重要特征是簇通常存在于部分属性所构成的子空间中,而非所有属性构成的全空间中。这样就要求有一种新的聚类方法不仅可以发现簇,而且还可以找出存在簇的子空间。它具体表现为在聚类完毕输出结果时,既要输出簇,同时还要输出相关维(构成子空间)。子空间聚类技术为此应运而生。然而同时发现簇和存在簇的子空间是非常困难的。一般来说,要想聚类就要先确定实施聚类的子空间;而要想确定聚类的子空间又依赖于包含足够多对象的簇,否则将无法确定簇中的对象在哪些维度(属性)上表现出相似性。那么究竟应该先聚类还是先确定子空间呢?这个问题似乎变成了一个关于“先有鸡,还是先有蛋”的争论!
本文的主要工作如下:
首先,根据对现有全空间和子空间聚类算法的研究,引入数据分布差异度的概念。通过该概念来描述子空间上数据分布的密集性,以便去除不相关维。基于数据分布差异度的概念进而提出一种新的子空间聚类算法SCDDD。
其次,为了解决自低向上搜索子空间时间复杂度偏高以及基于距离的相似度不宜应用于高维空间等问题,本文又提出了域转换的概念,将连续域的数据转换到离散域。然后进一步指出子空间聚类问题可以通过域转换变换为对频繁模式的搜索问题。然后本文提出了算法DTPTSubClu。实验结果表明该算法具有很高的精度和较好的运行效率。
最后,为了方便研究和应用,我们开发了软件“聚类分析工具”。基于“聚类分析工具”,本文对真实数据Food、中医感冒方剂和Yeast Cell基因表达数据进行了分析和研究。