论文部分内容阅读
聚类分析是数据挖掘研究中的热点,但是传统的方法大多数只适用于静态且单一属性类型的数据聚类。随着网络的迅速发展,对实时产生的流式数据进行聚类分析的需求变得越来越重要。并且现实中的数据大多是同时具有数值属性和分类属性的混合属性数据,而目前对混合属性数据的聚类研究不多,现有的方法也在通用性和准确性上有很大的改进空间。因此,针对混合属性数据的聚类分析研究在数据挖掘领域中具有重大的意义。 针对上述问题,首先对现有的聚类算法进行研究,介绍K-prototypes的相关定义和算法描述,分析算法在初始原型选择和K值确定的随机性和相异度计算的不准确性等缺点,为此提出了基于随机分组和基于K近邻的初始原型两种改进方法,以及基于面向维度距离和基于余弦相似度的相异度计算改进方法。然后介绍CluStream算法的双层聚类框架,分析算法的优点和缺点,提出了基于K近邻的在线微聚类改进算法和基于深度遍历的离线宏聚类改进算法,对离线部分的数据进行了标准化预处理,合并宏聚类中相似的类,调整聚类结果。 通过测试人造数据和UCI公共数据集,比较聚类过程的迭代次数和聚类结果,表明改进后的K-prototypes算法比原算法更加稳定,聚类结果也更加准确;而改进后的CluStream算法可以有效地聚类混合属性的流式数据,并且对属性维度的敏感性明显优于原算法。