论文部分内容阅读
聚类分析是数据挖掘领域中的关键技术之一,在电子商务、信息过滤、生物信息学、模式识别等领域得到广泛应用。随着聚类在实际中的应用越来越广泛,也逐渐凸现出一些问题,特别是在处理大规模、高维数据上表现得尤为明显。目前,高维数据的聚类分析是当前研究的热点和难点。为了解决高维数据的聚类问题,R. Agrawal首次提出了子空间聚类的概念。概括起来子空间聚类分为两大类:硬子空间聚类和软子空间聚类。硬子空间聚类方法能识别不同类所在的精确子空间。与硬子空间聚类不同的是,软子空间聚类不需要为每类找到精确的子空间,而是给每类的特征赋予不同权值,利用这些权值来衡量每维特征在不同类中的贡献,亦即,软子空间聚类为每类找到一个模糊子空间。本论文在研究了众多软子空间聚类算法后,发现此类算法存在的一个明显的不足之处,例如,即几乎所有的软子空间聚类算法主要引入类内信息,如类内紧度,来构造目标函数。但是,可以预期,如果能融入更多的判别信息来构造子空间聚类算法,其聚类性能将会进一步增强。为此,本文探讨了增强的软子空间聚类技术。本文主要工作包括以下几个方面:第一部分是绪论部分,简要介绍了聚类分析技术的研究现状以及应用领域。第二部分介绍了高维数据聚类问题的研究背景和解决方法,并重点研究了子空间聚类算法,以及常用的三种子空间聚类算法。第三部分介绍两类具有代表性的软子空间聚类算法:模糊加权子空间聚类和熵加权子空间聚类是。第四部分针对传统模糊加权软子空间聚类仅利用类内信息之不足,通过引入类间鉴别信息,提出了增强的模糊加权软子空间聚类算法(EFWSSC)。提出的新方法首先在模糊子空间内结合类间分离度及类内紧度信息构造新的目标函数,继而推导出新的聚类学习规则并提出新算法。理论分析和基于不同数据集的实验表明提出的新算法显示出了良好的有效性,优于大多数已有的模糊加权子空间聚类算法。第五部分针对可能性聚类算法(PCM)在高维数据聚类时的不足,引入子空间聚类机制,提出了子空间可能性聚类算法(SPC)。SPC不但保留了PCM方法所具有的优点,同时也具有了经典子空间聚类技术的优点,即在高维数据上显示较好的适应性,且能有效地检测各类所处的子空间。通过在模拟数据集和UCI数据集上进行的仿真实验证明,SPC的有效性和较之于PCM算法的优点得到了验证。