I-nice:一种数据聚类的新方法

来源 :深圳大学 | 被引量 : 0次 | 上传用户:sure565372
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种通用的数据探索方法。k均值类型的聚类算法适用于高效处理大数据聚类。但是,这些算法需要提前确定簇的数量,并且需要指定初始的簇中心以改善聚类结果。在本文中,我们提出了I-nice,数据聚类的方法,I-nice是识别聚类数和初始聚类中心的缩写。在I-nice方法中,我们将数据集视为一种地形而簇为这种地形中的丘陵。我们为地形指定一个观察者来观察和计算山峰,它们对应于簇的密集区域并反映数据中簇的数量。我们基于I-nice概念开发了两个无参数的聚类算法。使用I-nice方法,我们解决了三个聚类问题。本论文的主要贡献有四个方面。首先,我们提出了I-nice方法来进行数据聚类。I-nice方法通过计算观察点和被观察对象之间的距离将高维数据转换为一维距离数据。距离分布由一组Gamma混合模型(GMM)表示,其通过期望最大化(EM)算法求解。使用Akaike信息标准变体(AICc)选择最佳拟合模型。我们提出了I-nice SO(I-nice with a Single Observation)算法,将模型中的组件数量视为簇的数量,并且使用k-近邻方法(k-)分析每个组件中的对象,以便找到初始的簇中心。对于具有许多聚类的复杂数据集,我们提出了I-nice MO(I-nice with Multiple Observations)算法,该算法结合了多个观察点的结果。其次,我们从未标记的数据中制定了基于I-nice的半监督聚类。提出了一种从未标记数据中选择成对约束的方法,以提高聚类准确性。为此,我们首先使用I-nice方法将未标记的数据聚类成一组初始簇。从簇中选取最具信息性的对象和信息对象,以形成一组成对约束。该方法的优点是选择成对约束不需要数据的标签信息。第三,我们还为簇生存分析定义了基于I-nice的概念漂移检测方法。在这种方法中,我们提出了一种数据流聚类算法I-nice Stream,用于聚类未标记的负载概要数据流。概念漂移检测方法使用修改的Kullback-Leibler(KL)散度从聚类结果计算概念漂移分数。我们根据概念漂移得分估计聚类模式。我们使用生存分析将聚类模式分类为持续、衰落和新兴类型,并检索具有有趣特征的代表性负载概要数据。最后,为了分析负载配置文件数据流,我们提出了一种基于I-nice的半监督聚类集成框架。我们使用名为Inice WMO的加权观察点修改算法I-nice MO,该观察点发现负载概要数据的簇结构。在半监督聚类中,成对约束是从每个簇结构信息中提取的,聚类解的集合是从一组连续数据水平中获得的。然后,定义聚类集成方法以获得最佳聚类解。在实验中,我们使用了合成数据集、真实数据集和实际应用程序负载概要数据。负载概要数据包含2012年从中国广东省制造业收集的21330条记录。实验结果表明,所提出的方法优于几种最先进的算法。
其他文献
在燃油溶气雾化原理的基础上,利用数码照相机拍摄了LPG溶入柴油的喷雾空间形态,计算和分析了喷雾液滴的平均直径、尺寸分布以及液滴尺寸累积体积分布的特征直径和发散度.结果