论文部分内容阅读
近年来,随着云计算、物联网技术与社交网络的不断发展,各行各业积累的数据规模正在高速增长,由于这些海量数据中潜在的包含着大量有价值的信息,因此如何收集并有效的分析这些数据来获得潜在的信息是当前的研究热点。聚类分析作为数据挖掘领域重要的无监督学习方法,已经被广泛的应用于教育、科研以及互联网等领域。虽然现存的聚类算法在处理小规模低维数据时可以获得较高的聚类质量,但是在处理大规模高维数据时往往导致聚类的有效性大大降低。因此,探索一种适合大规模高维数据的聚类方案成为现今数据挖掘领域研究的重点与难点。本文旨在从数据规模约简的角度出发,以抽样技术为核心开展深入研究,全文的主要工作包括如下:(1)抽样技术已经被广泛的应用到大规模数据聚类分析中,为了克服在抽样过程中需要人工随机设置样本大小而导致抽取样本集质量不高的缺陷,本文在现有的统计最优样本大小算法的基础上设计一种自适应样本大小的抽样聚类算法。该算法在原有算法基础上加入了针对高维数据冗余特征的移除操作,从而使得改进后算法能有效的处理大规模高维数据。通过在多组UCI数据集上的实验可以看出,利用改进后算法确定的样本量来抽取样本集可以获得较高的质量。(2)虽然现存的可变网格划分密度偏差抽样聚类算法可以有效的应对大规模数据,但是该算法在处理大规模高维数据时需要对每一维进行处理,从而导致算法的执行时间随着维度的增加有较大的增幅。针对这一缺陷,本文提出了一种高效的密度偏差抽样聚类算法,该算法首先通过研究高维数据特征在聚类类簇空间形成的重要性来设计一种高效的高维数据特征选择方法,然后将该方法应用到可变网格划分密度偏差抽样聚类算法中,从而使得改进后的算法可以有效的处理大规模高维数据集。通过在多组人工数据集以及UCI标准数据集上实验验证了改进后算法的有效性。(3)为了进一步展示提出的高效密度偏差抽样算法的实用性,将该算法集成到开源的数据挖掘平台Weka中,并在真实的大规模高维数据集上对该算法进行进一步的实验。实验结果表明,相比较Weka中的其他抽样算法,该算法能够获得更高质量的样本集,并且在该样本集上可以获得较准确的聚类结果,从而实现了聚类算法在大规模高维数据集上的有效应用。