混合属性数据聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wai123414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘研究中的热点,但是传统的方法大多数只适用于静态且单一属性类型的数据聚类。随着网络的迅速发展,对实时产生的流式数据进行聚类分析的需求变得越来越重要。并且现实中的数据大多是同时具有数值属性和分类属性的混合属性数据,而目前对混合属性数据的聚类研究不多,现有的方法也在通用性和准确性上有很大的改进空间。因此,针对混合属性数据的聚类分析研究在数据挖掘领域中具有重大的意义。  针对上述问题,首先对现有的聚类算法进行研究,介绍K-prototypes的相关定义和算法描述,分析算法在初始原型选择和K值确定的随机性和相异度计算的不准确性等缺点,为此提出了基于随机分组和基于K近邻的初始原型两种改进方法,以及基于面向维度距离和基于余弦相似度的相异度计算改进方法。然后介绍CluStream算法的双层聚类框架,分析算法的优点和缺点,提出了基于K近邻的在线微聚类改进算法和基于深度遍历的离线宏聚类改进算法,对离线部分的数据进行了标准化预处理,合并宏聚类中相似的类,调整聚类结果。  通过测试人造数据和UCI公共数据集,比较聚类过程的迭代次数和聚类结果,表明改进后的K-prototypes算法比原算法更加稳定,聚类结果也更加准确;而改进后的CluStream算法可以有效地聚类混合属性的流式数据,并且对属性维度的敏感性明显优于原算法。
其他文献
自从德国的Wille教授提出了形式概念分析以来,作为形式概念分析的核心数据结构,概念格已经引起了人们的广泛关注,并且已经在知识发现、软件工程、信息检索等诸多领域得到了广
随着互联网使用的日益普遍,网络技术的发展也日新月异。电子商务、网上银行等网络应用在为人们提供了便捷的服务的同时也带来了更多的安全问题,防火墙、入侵检测等安全技术成
纹理合成技术是数字图像处理和计算机图形学的一个主要研究内容,近年来发展较快,广泛应用于通信、安全等领域,具有一定的应用价值。针对目前纹理图像生成技术存在的弱点,本课
体绘制技术是三维医学影像信息可视化的常用技术。将体绘制技术和自由立体显示技术相结合,研制立体效果更强更逼真的显示系统,可为基于医学影像的诊断、手术方案制定、教学提供
遗传算法是模拟自然界生物进化过程的随机化搜索算法,其主要特点是采取群体搜索策略和在群体中个体之间进行信息交换,具有很多优良性质和使用价值,然而存在对信息利用不足,求解易
近年来,有两项重要的研究工作推动着WWW(World wide Web)技术的发展,一方面是Web服务研究,另一方面则是语义Web的研究。两者具有很好的互补性,Web服务是Web上信息和数据集成
随着互联网的飞速发展,Web被广泛的应用于人们的日常生活、学习、工作以及娱乐活动中。Web可以比作为一个巨大的信息收集站,它存储着各种各样的人们所需要的资料信息。在这个信
数学公式在数学,物理学和其他很多领域中扮演者重要角色。随着手写设备,平板电脑等智能设备的发展和普及,很多研究机构开始关注手写数学公式识别问题。传统手写数学公式的识别方
由于网络处理器被认为是推动下一代网络向灵活性和高性能发展的核心技术,因此各个芯片公司都推出了自已的网络处理器产品。作为业内芯片生产巨头的Intel公司相继推出了多个系
随着计算机处理能力的不断增强和网络技术的迅速发展,越来越多的计算机连接到了Internet上,如何有效的利用这些计算资源成为一个热点问题。在传统的Internet中央服务器模式中,服