混合属性数据聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：wai123414

【摘要】

：

聚类分析是数据挖掘研究中的热点，但是传统的方法大多数只适用于静态且单一属性类型的数据聚类。随着网络的迅速发展，对实时产生的流式数据进行聚类分析的需求变得越来越重要。

【作者】

：

余轶斐

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2014年期

【关键词】

：

数据挖掘聚类分析混合属性 K-prototypes算法 CluStream算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是数据挖掘研究中的热点，但是传统的方法大多数只适用于静态且单一属性类型的数据聚类。随着网络的迅速发展，对实时产生的流式数据进行聚类分析的需求变得越来越重要。并且现实中的数据大多是同时具有数值属性和分类属性的混合属性数据，而目前对混合属性数据的聚类研究不多，现有的方法也在通用性和准确性上有很大的改进空间。因此，针对混合属性数据的聚类分析研究在数据挖掘领域中具有重大的意义。　　针对上述问题，首先对现有的聚类算法进行研究，介绍K-prototypes的相关定义和算法描述，分析算法在初始原型选择和K值确定的随机性和相异度计算的不准确性等缺点，为此提出了基于随机分组和基于K近邻的初始原型两种改进方法，以及基于面向维度距离和基于余弦相似度的相异度计算改进方法。然后介绍CluStream算法的双层聚类框架，分析算法的优点和缺点，提出了基于K近邻的在线微聚类改进算法和基于深度遍历的离线宏聚类改进算法，对离线部分的数据进行了标准化预处理，合并宏聚类中相似的类，调整聚类结果。　　通过测试人造数据和UCI公共数据集，比较聚类过程的迭代次数和聚类结果，表明改进后的K-prototypes算法比原算法更加稳定，聚类结果也更加准确；而改进后的CluStream算法可以有效地聚类混合属性的流式数据，并且对属性维度的敏感性明显优于原算法。

其他文献

概念格的分布并行处理及约简构造研究

自从德国的Wille教授提出了形式概念分析以来,作为形式概念分析的核心数据结构,概念格已经引起了人们的广泛关注,并且已经在知识发现、软件工程、信息检索等诸多领域得到了广

学位

形式概念分析概念格形式背景并行化分布处理约简构造

入侵追踪系统的研究与实现

随着互联网使用的日益普遍,网络技术的发展也日新月异。电子商务、网上银行等网络应用在为人们提供了便捷的服务的同时也带来了更多的安全问题,防火墙、入侵检测等安全技术成

学位

入侵追踪封包截获协议分析Whois查询

基于神经网络的自然景物纹理合成技术的研究

纹理合成技术是数字图像处理和计算机图形学的一个主要研究内容,近年来发展较快,广泛应用于通信、安全等领域,具有一定的应用价值。针对目前纹理图像生成技术存在的弱点,本课

学位

纹理纹理合成特征函数人工智能人工神经网络

三维影像数据自由立体可视化研究

体绘制技术是三维医学影像信息可视化的常用技术。将体绘制技术和自由立体显示技术相结合，研制立体效果更强更逼真的显示系统，可为基于医学影像的诊断、手术方案制定、教学提供

学位

自由立体显示器三维医学影像信息光线投射算法实时交互功能

“遗传—蚁群”混合算法及其在水量调度中的应用

遗传算法是模拟自然界生物进化过程的随机化搜索算法，其主要特点是采取群体搜索策略和在群体中个体之间进行信息交换，具有很多优良性质和使用价值，然而存在对信息利用不足，求解易

学位

遗传算法蚁群算法收敛性

基于本体的Web服务动态发现和合成技术研究

近年来,有两项重要的研究工作推动着WWW(World wide Web)技术的发展,一方面是Web服务研究,另一方面则是语义Web的研究。两者具有很好的互补性,Web服务是Web上信息和数据集成

学位

本体服务发现服务合成服务质量Potri网

基于Web日志挖掘的个性化推荐方法研究

随着互联网的飞速发展，Web被广泛的应用于人们的日常生活、学习、工作以及娱乐活动中。Web可以比作为一个巨大的信息收集站，它存储着各种各样的人们所需要的资料信息。在这个信

学位

Web日志挖掘个性化推荐马尔可夫链网页聚类

基于BPL数据增强的手写数学公式识别

数学公式在数学，物理学和其他很多领域中扮演者重要角色。随着手写设备，平板电脑等智能设备的发展和普及，很多研究机构开始关注手写数学公式识别问题。传统手写数学公式的识别方

学位

手写数学公式识别深度学习BPL数据增强贝叶斯规划学习

IXA架构网络处理器上软件应用开发研究——基于IXP2400的IPV4包转发模块实现

由于网络处理器被认为是推动下一代网络向灵活性和高性能发展的核心技术，因此各个芯片公司都推出了自已的网络处理器产品。作为业内芯片生产巨头的Intel公司相继推出了多个系

学位

互联网交换架构网络处理器微引擎

对等网络Chord查找算法改进方案的研究与应用

随着计算机处理能力的不断增强和网络技术的迅速发展，越来越多的计算机连接到了Internet上，如何有效的利用这些计算资源成为一个热点问题。在传统的Internet中央服务器模式中，服

学位

对等网络P2P查找算法Chord

混合属性数据聚类算法研究

其他学术论文