基于网格方法的数据流聚类算法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:jialifish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流聚类是从大量的、有噪声的、模糊的、随机的流数据中发现不相连的、具有相似属性的簇,并使簇中数据的相似性尽可能高,不同簇中的数据的相似性尽可能低,它是数据挖掘领域的一个重要研究方向。在现有的数据流聚类算法中,基于网格方法的聚类算法具有较高的数据压缩比和较低的时间复杂度的特点,这使其在数据流聚类中有着较好的表现。但与此同时,网格方法也有其不足,主要是容易丢失簇边缘网格中的数据点,而这将导致网格聚类的正确率降低。另外,针对高维数据空间如何进行有效的聚类也是一个值得关注的问题,在高维数据空间中,数据点之间的距离趋近于相等,这给以数据点之间的距离作为数据相似性评价标准的聚类算法带来了挑战。为此,本文的主要研究内容和成果如下。首先,针对网格数据流聚类中簇边缘网格数据点丢失的问题,提出了基于可变密度阈值的网格数据流聚类算法VDTS。在传统的网格数据流聚类算法中,使用均匀划分网格并采用固定的密度阈值,而在VDTS算法中,采用不均匀划分的网格和可变的密度阈值,从而使簇中心部分的网格容易合并,形成较大的网格,簇边缘部分的网格不容易合并,保持较小的网格。VDTS算法既保留了网格数据流聚类算法的高数据压缩比又解决了簇边缘网格数据点丢失的问题。其次,针对高维数据流聚类困难的问题,提出了高维数据流网格聚类算法HVDTS。在高维数据流的聚类中,通常的方法是对高维空间进行降维,其中一个关键的问题是如何降维,即如何选择那些对聚类影响较大的维并删除那些对聚类的结果影响较小的维。本文提出了一种维选择算法,通过比较数据点在每一维上的投影的平方误差和来判断该维对聚类结果影响的大小。经过维选择算法处理后,数据空间的维数降低到一个可以接受的范围,然后对降维后的数据集进行聚类,最终获得聚类结果。
其他文献
随着计算机网络的飞速发展和广泛应用,基于网络的分布式软件开发技术已成为当前应用软件开发的主流技术。然而,分布式软件开发面临着操作系统平台多样性、网络的不稳定性等很多
膝关节是人体最重要、最复杂的关节之一,也是病发率最高的一个关节。由于其在临床治疗、医学研究、虚拟手术、生物机械设计等领域的重要意义和应用价值吸引了大量学者对其进行
近年来,随着移动互联网和多媒体应用的飞速发展,图像数据已经成为网络数据的重要部分,对网络中海量的图像数据进行快速检索和存储成为我们当前面临的一个挑战。图像哈希技术
随着物联网应用的推进,基于IEEE802.15.4标准的无线个域网络(Wireless Personal Area Network, WPAN)得到广泛的应用。为了充分利用IP网络的充足资源,WPAN与IP网络互联互通的
数据库是日常生产活动中重要的信息存储和检索工具,其设计一直随需求的变化而发展,系统架构从单机扩大为分布式集群,存储介质从磁盘转移到内存,数据组织从行式衍生出列式,而
随着网络技术以及多媒体技术的飞速发展,视频以其突出的优势深入地影响着社会生活,成为了传达信息的主要方式。目前,几乎各个国家对运动员体育赛事及平时训练的录像都给予了高度
长期以来,生产调度问题不仅是生产管理者关注的重点,同样也是组合优化领域的热点研究对象。多目标流水车间调度问题作为研究最为详尽的多机调度问题中的一个分支,有着广泛的应用。其任务是安排一组机器以特定的顺序加工一组工件,同时通常需要满足多个不同的约束条件。合理的加工工序和调度策略能够有效降低企业的生产成本,资本损耗以及管理开销。因此,高效求解多目标流水车间调度问题对于提高生产效率,合理配置生产资源,降低
学位
随着计算机技术和网络技术的不断发展和普及,代表着先进的教学思想和教学方法的智能计算机辅助教学(Intelligence Computer-Assisted Instruction,ICAI)应运而生,它改变了传
网络通信科技的迅猛发展,为人们日常生活的信息沟通提供了越来越快捷的服务。无线传感网络在科学研究、环境监测、智能公交、医疗监护、智能家居、军事侦查和日常生活等领域