面向高维数据的变密度空间聚类研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:guomingjie000111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的飞速发展和广泛应用,海量的高维数据被冗余地存储,如何从数据的沙漠中挖掘出宝贵的知识业已成为当前最迫切的需求。聚类(Clustering)分析作为数据挖掘领域中的一个重要分支,研究从海量未知数据中挖掘出有用的知识,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。然而,现实世界中数据的高维、分布稀疏及不可避免的噪声普遍存在,特别是数据的变密度分布,使得传统聚类算法难以使用。为此,设计能高效处理变密度高维数据的聚类模型和算法成为本文的研究核心。本文的主要工作如下:(1)深入探讨和分析了聚类分析的概念、要求及所用数据类型,详细介绍各聚类方法的思想、原理及实现,及其各自的优势与存在的不足。(2)针对基于密度聚类算法的优势及其存在的不足和缺陷,引入层次树模型描述子聚类信息并利用基于密度的聚类思想进行聚类探测,形成算法DCHT。算法不仅具备基于密度聚类的优势性能,而且从根本上摒除该类算法因结构设计粗糙而导致的种种不足。(3)针对传统聚类方法难以处理变密度空间聚类的现状,引入改进的层次树结构描述数据集分布信息,并动态、自适应地调整局部参数来处理变密度高维聚类难题,形成SVC算法。理论和实验共同验证了以上所提两种算法的有效性和高效性。
其他文献
随着计算机技术和宽带数据通信网日新月异地发展,以多媒体通信业务为主体的信息网络技术已逐渐成为人们关注的热点,而实时音视频会议系统的成功开发和应用更是显示了其良好的发
随着硬件处理器架构的不断发展,应用的结构也变得越来越复杂,这给并行编程带来了巨大的挑战,为此任务并行编程模型便应运而生并得到越来越广泛的应用。现有任务并行编程模型在任
无线传感器网络是由大量能量受限的传感器节点组织成的无中心结构的无线自组织多跳网络。无线传感器节点体积微小,携带的电池能量有限,研究节约能量的机制是无线传感器网络中
基因表达式程序设计(GEP)是一种新型的遗传算法,它继承了遗传程序设计(GP)和遗传算法(GA)的优点并且具有更高的效率和更强的搜索能力,它是借鉴生物选择和进化机制发展起来的一
汽车行驶的舒适性和操纵的稳定性两项指标与汽车的悬挂系统有着密切的关系。传统被动悬挂的结构参数不能随外界条件的变化而变化,从而限制了汽车性能的进一步提高,而半主动悬挂的结构参数如阻尼、弹簧刚度等具有可调性,能较好地满足车辆行驶的要求。本课题主要研究的是汽车半主动悬挂的控制系统,主要内容包括算法理论研究和半主动悬挂控制器设计两部分。算法部分是以四自由度非线性汽车模型作为研究对象,采用自适应模糊控制方法
Robocup世界杯是世界上规模最大、参与人数最多的机器人足球比赛,也是智能机器人领域最重要的国际盛会。其比赛项目分为仿真组和实物机器人组。本文工作基于RoboCup提供的足球
随着生物医学工程的迅速发展,越来越多的生物医学信息被数字化,心电图、动态心电图就是其中的典型实例,其研究内容主要集中于心电波形的波峰检测和识别。对动态心电图则还要对其
随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更
随着互联网技术的迅速发展,各种网络多媒体应用日益普及,多媒体视频会议技术已经成为研究开发和实际应用的一个热点。多点控制单元(MCU)是整个视频会议的核心,负责视频会议的系
随着通信技术的发展,基于多媒体通信的应用得到了迅速的发展。然而由于视频信息信号量大,对传输网络带宽要求高,因此必须对视频信息进行压缩。已有的压缩体系均采用预测编码