【摘 要】
:
在数据挖掘领域中,聚类分析是一项重要的研究课题。它既可以作为一个单独的工具用以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此
论文部分内容阅读
在数据挖掘领域中,聚类分析是一项重要的研究课题。它既可以作为一个单独的工具用以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。本文在分析现有聚类算法特别是基于密度的聚类算法优缺点的基础上,结合空间索引技术,提出了一种新的基于格网密度和空间划分树的聚类算法(CGDSPT);在聚类实验系统上,通过对多个样本数据集的实验结果的分析和算法的实际应用,验证了CGDSPT算法的有效性。本文的主要工作包括:1、将现有聚类方法按照五大类进行了系统的评述,并对基于密度的几种经典算法做了详细的介绍。2、通过对空间索引结构的综述,结合空间划分的特性,提出了一种基于空间划分的索引结构SP-Tree。SP-Tree有效地保存了数据的空间位置信息,为空间区域的邻域查询提供了极大的方便;同时它只索引非空单元格,不仅节省了存储空间还降低了算法的时间复杂性。3、结合基于格网密度聚类算法的特性和空间索引的优点,文章提出一种基于格网密度和空间划分树的聚类算法。算法充分借助了网格和空间索引的优势,使算法的时间复杂度与数据规模近似呈现线性关系。同时该算法具有能发现任意形状的簇、对噪声数据和数据输入顺序不敏感等优良特性。4、针对算法的参数设置问题,本文提出了一种根据样本数据的统计特性自行调整参数的方法,能有效地降低参数设置的难度,获得了较好的聚类效果。5、针对聚类有效性评价问题,本文提出了一种基于簇密度的适合任意形状簇的聚类有效性指数,实验表明其能有效地指导用户调整参数以获得满意结果。6、建立了一个聚类实验系统。在此系统上,利用多个样本集对本文提出的聚类算法进行详细的性能分析;将算法应用到中国分区域人口多维综合死亡模式的聚类中,并对聚类结果的区域性等特征进行了详尽分析。
其他文献
嵌入式实时系统作为计算机应用的一个崭新领域,以其简洁、高效等优点越来越多地受到人们的广泛关注。而若要开发一个嵌入式应用系统,至少需要嵌入式硬件、实时操作系统及相应
锅炉是一种重要的工业和民用设备,安全性高。开展锅炉设备故障诊断技术的研究对保障锅炉的安全运行有着十分重要的作用。作者结合现有的锅炉故障诊断技术,提出一种基于模糊数
随着我国国民经济的持续发展,城市交通日趋紧张,地铁成为解决大中城市交通拥挤问题的最佳方案。随着地铁系统的快速发展,直流牵引供电系统得到了越来越广泛的应用,研制高性能和可
计算机技术和通讯技术的发展推动着控制系统由集散控制系统和分布式现场总线控制系统向着开放的、标准化的网络控制系统发展,字符显示器也随之从专用走向了通用。字符显示器
自动目标识别是计算机视觉和人工智能研究领域中一项非常有意义但又很有挑战性的工作。近年来,有关自然景物中人造目标的自动识别引起了广泛关注,其无论在军事领域还是民用领域
全球经济一体化趋势的不断加强,政治、经济、社会环境的巨大变化,顾客消费水平的不断提高,使得企业间的竞争日益加剧。企业为了提高竞争力而采取了许多先进的技术和管理方法
在现代连铸生产中,随着工厂自动化水平的提高,对可靠性和铸坯质量的要求越来越严格,对结晶器液位控制精度的要求也越来越高。结晶器液位控制是冶金连铸系统中非常重要的环节
随着Internet的迅猛发展,作为提高网络性能的重要手段之一的网络拥塞控制是网络的热点研究领域之一。拥塞控制的目标就是要达到链路吞吐量的最大化、分组延时的最小化、各用户
电力变压器作为电力系统中最重要的设备之一,它的正常运行直接关系到整个电力系统的安全稳定。而在长期运行过程中,变压器铁心与绕组难免会出现异常,引发电力变压器故障。为了能及时发现电力变压器的故障隐患,提高电力变压器的运行可靠性,开展对变压器振动信号在线监测的研究具有重要意义。本文首先设计了电力变压器振动在线监测系统,采用LabVIEW软件开发了振动在线监测系统平台,实现了对变压器振动信号的在线监测,可
虚拟仪器是当今测控领域的技术热点,是计算机技术、仪器仪表技术和其它技术完美结合的产物。它利用目前计算机系统的强大功能,结合通用化、标准化的硬件模块,以软件为核心实