无参数网格聚类算法的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ping996115122xing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类分析作为其重要的组成部分,当前,在模式识别,数据处理,图形图像以及市场分析等方面越来越受到人们的青睐。在众多研究领域当中,聚簇分析是专家学者研究的焦点。本文对聚类算法进行了深入地分析研究,指出该类算法存在着对参数敏感、不能有效地对多密度数据集聚类等问题。针对这些问题,本文利用网格熵和网格信息度的概念来自动计算出网格聚类中的密度阈值,在此基础上提出了一种有效的无参数网格聚类算法NaRic;针对传统的反向K-近邻边界点检测算法BORDER存在着时间复杂度较高、参数难以确定以及该算法不能去除孤立点影响等问题,本文利用网格中数据点方差的概念来确定聚类中的边界点,在此基础上提出了基于统计信息的边界点检测算法BPSF。针对上述提出的两种算法NaRic和BPSF,本文中都进行了较为详细的描述,给出了算法实现的具体步骤。本文使用Visual C++6.0实现了无参数网格聚类算法NaRic、共享近邻SNN算法、基于统计信息的边界点检测算法BPSF、反向K-近邻边界点检测算法BORDER算法,做了大量的对比实验,包括有效性、效率对比实验,所使用的数据集包括综合数据集和真实数据集。实验结果表明,无参数网格聚类算法在不需要任何输入参数的情况下可以处理任意形状、任意大小的聚类,并且可以对多密度数据集进行正确聚类,和传统的多密度聚类算法SNN相比,该算法具有较高的聚类精度和效率;基于统计信息的边界点检测算法BPSF可以去除噪声点的影响,较为准确的找到聚类的边界,算法的时间复杂度小于传统的边界点检测算法BORDER。总之,无参数网格聚类算法在一定程度上解决了网格聚类算法对参数敏感的问题,而基于统计信息的边界点检测算法也能够准确、有效的发现聚类的边界点,并且在执行效率、检测效果等方面有一定的优越性。
其他文献
下一代无线通信系统的发展方向是基于多种无线接入技术融合共存的异构无线网络,它们在覆盖范围、接入能力、Qo S保障方面各不相同,没有一种单一的网络可以在带宽、覆盖范围、
国际航空航天技术中逐步采用高级在轨系统(AOS)数据标准,使得关于AOS体制标准的研究变得越来越重要,研究设计高级在轨系统收发设备对研究AOS体制标准及发展我国航天技术都具
本文针对传统的并发控制协议不能为嵌入式实时数据库系统提供高可靠性的问题,借助实时事务功能替代模型和事务价值等基本原理,探讨了一种新的面向嵌入式实时数据库系统的并发
随着互联网的高速发展,互联网承载业务多样化,网络流量日渐增多,利用互联网流量进行网络攻击的事件层出不穷,而分布式拒绝服务(Distributed Denial of Service,DDoS)攻击是当
目前,国家提出“和谐社会”、“平安城市”等建设方针,这使得网络视频监控在国家安全以及人们生活中扮演着越来越重要的角色,随着互联网技术的成熟和多媒体技术的发展,视频编
随着计算机网络规模不断扩大、复杂性不断增加以及异构性越来越普遍使得网络管理越来越困难,将主动网络技术应用于网络管理是当前网络管理研究的热点之一。针对目前网络中不
水表、电表、燃气表(三表)数据抄送主要经历了手工抄表、IC卡预付费表、有线抄表以及基于蓝牙技术的无线抄表等阶段,这些抄表方式有各自的优点,但同时也有其局限性,因此现有抄表
随着计算机和网络技术的飞速发展,网上数字视频大量涌现,数字图书馆、视频点播、远程教学等大量多媒体技术已经日益普及。视频信息检索的复杂性远远高于简单的文本信息检索,
有向传感器网络作为无线传感网络的一种高级形式,在诸多特殊场景中得到了广泛利用。由于其节点多为无线工作方式且能量无法得到补充,因此必须通过合理的节点调度来提高节点利
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法。在解决许多复杂的组合优化问题方面,展现了优异的性能,但在解决实际问题中仍然不够成熟,还有很大的发