数据流聚类方法的研究——基于概率密度和应用摘要层次的算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:errand2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,作为数据挖掘的重要工具之一,聚类分析的应用领域日益广阔,越来越多的领域出现了大量的数据流。数据流具有数据量无限且流速快等特点,使得传统的聚类算法不能直接应用于数据流聚类问题,如何对数据流进行有效的聚类是当前数据挖掘领域的一个难点和热点问题。 数据流聚类分析的难点之一就是要求算法只能有限次的扫描数据集,最好是一次扫描。本文针对数据流聚类的难点,给出了一种基于概率密度的数据流聚类算法,该方法不需要存储全部历史数据,只需要存储新到达的数据并对其应用EM算法,利用高斯混合模型增量式的更新概率密度函数。 本文还给出了应用摘要层次结构的数据流聚类算法,该算法的在线阶段应用了两种摘要技术,基于小波的技术和基于回归的技术来构造摘要层次结构。基于回归的拟合模型可以得到较精确的摘要层次结构,而基于小波的拟合模型可以快速地建立摘要层次结构并且所需的存储空间比较小。 为了验证以上两种算法的性能,进行了一系列的仿真实验和对真实数据的实验。通过实验证明本文所给出的算法,运算速度有了很大的提高,并且随着簇数目和数据维度的增大运行时间呈线性增长,对噪音敏感度较低。另外,通过对真实数据的实验表明,算法的聚类质量也有大幅度的提高。
其他文献
随着本体和语义网研究的不断发展,构建面向语义网的本体成为了一个引人关注的研究方向。目前,构建面向语义网的本体仍是一件艰难而耗时的工作。因此在本体应用中需要对网络中已
随着军事电子技术,特别是水声对抗技术的发展,对水下目标的探测、跟踪和识别提出了更高要求。传统的主动声呐系统难以满足实际战场的需求,而被动声呐定位系统因其作用距离远,
视频监控已成为现代安全防范系统的重要组成部分,无论是道路交通、仓库厂房、学校围栏、银行安保、公司安检等都采用了视频监控作为防备安全的重要工具。而嵌入在监控系统中
由于互联网络的发展,整个世界正在迅速地融为一体。计算机网络在经济和生活的各个领域正在迅速普及,整个社会对网络的依赖程度越来越大。伴随着网络的发展,也产生了各种各样
信息时代的来临,带来大量的数据。这些数据中隐藏着许多重要的信息和知识。如何从表面数据中提取到深层次的、表现了事物内在规律的规则来进行预测或指导决策,是迫切需要解决
随着科技进步和计算机网络技术的发展,越来越多的人融入到了网络,享受着网络带给人们的种种便利。但同时随着互联网规模的迅速扩大,安全问题已经成为一个互联网发展中无法回
结构学习是机器学习中一类重要的学习方法,近年来已得到了人们的广泛关注。本文主要针对结构机器学习的结构表示问题及结构度量问题,从Finsler几何的角度对其展开研究,提出了
粗糙集理论(Rough Set)在上世纪末由欧洲著名的学者Pawlak Z,作为一种对进行数据分析和处理工具首次被概括归纳推出,它是一种用于描述具有不确定性、含糊性较高的数据的数学
在研究不断变化着的现实世界时,时间是一个非常重要的因素。我们常以时间为依据来解释各种事实和数据,因为各种事件和实体间的潜在关系常常蕴涵在时态信息中。目前对时态信息
近些年来,机器人教学与实践成为学校教育的一个重要环节,并得到国家的大力支持。教育机器人本身涉及多种门类不同学科的知识,在多个方面都能锻炼学生的能力,提高他们的综合素