一种适应高速数据流的聚类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhou101302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着通信技术和信息技术的飞速发展,人们逐渐意识到一些数据集中型的应用。在这些应用中,数据不再是传统上基于关系模型的静态数据,而是以转瞬即逝的数据流形式出现。上述这些应用包括:财务系统、网络监控、安全领域、通信数据管理、制造业、传感器网络等。海量数据流快速、实时、连续、有序达到。挖掘数据流中的潜在知识对传统数据挖掘算法提出了新的挑战。数据流聚类分析作为数据流挖掘中的一种重要的方法,近年来得到了越来越多的研究和关注。本文以高速带噪声的数据流为研究目标,设计并实现了一种准确、高效、适应任意时刻数据流聚类算法。为此论文主要做了以下方面的工作:首先介绍了课题的研究背景和意义,国内外研究现状。其次研究了数据流挖掘尤其是聚类分析方面相关的理论和技术,总结了主要的数据流聚类算法的优缺点。再次在前面工作的基础上,通过修改概要数据结构,设计了一种改进于近似搜索树(SimilaritySearch Tree)的任意时刻数据流聚类算法(Similarity Search with Micro-clusters Tree,SMCC-Tree)。该算法采用了两阶段算法框架,在线部分的微聚类采用带微簇的近似搜索树(SSMC-Tree)的数据结构,并引入了缓存、捎带处理策略。离线部分的宏聚类,在在线部分所得微簇的基础上,采用基于密度聚类方法,得到任意形状的微簇。由于在实际应用中产生的数据流具有很高的速度,为此在上述算法的基础上提出了一个局部聚类算法(LocalAggregate),在数据流对象插入树前进行预聚类。另外,为了解决数据流中的噪声问题,采用了一种离群点剪枝策略,在该策略中引入了潜在核心微簇队列和离群点微簇队列,周期性的移除离群点,从而保证聚类质量。最后,在名为MOA(Massive Online Analysis)的开源数据流聚类框架上设计和实现了上述算法,并在仿真的和真实数据集上进行了相关实验,结果表明,SSMC-Tree及其改进算法具有较好的准确性和高效性,能够适应高速的带噪声的数据流聚类,并在任意时刻得到聚类结果。
其他文献
无线传感器网络(Wireless Sensor Networks, WSN)由大量的传感器节点组成,常被部署在环境恶劣、人迹罕至的地方,能量受限是人们在研究无线传感器网络时不得不面临的问题。如
信息-物理融合系统(CPS)是一个综合计算、网络和物理环境的多维复杂系统,通过计算,通信和控制等技术的密切结合,该系统必须感知由环境变化所引起的约束,并且对这些变化可以进
连接是数据库系统查询处理中的一个核心操作,高能效连接算法是能效DBMS中的一个重要研究议题。固态盘和硬盘比较具有随机读写性能快的优势,数据库系统中合理利用这一优势提升
随着云计算和互联网的快速发展,云计算环境下的实例密集型工作流作为一种重要的商业应用开始被广泛应用于人们的工作和生活中,如电子商务中的在线付款和网络购物等。因此,对
随着网络技术的迅速发展,电子商务活动越来越频繁,尤其是网上购物、网上银行等业务给人们生活带来了巨大的便利,人们能够在足不出户的情况下,获得自己所需要的资源和服务。但是人
软件缺陷预测是软件工程中最活跃的研究领域之一。缺陷预测模型能够提供容易出错的源代码组件或更改等,使得质量保证团队可以通过更多努力应对易出错的源代码,有效地分配有限的
下料问题广泛应用于各个行业,如金属制品业,家具业,钣金件加工业等。目前应用较为广泛的是二维矩形下料。二维矩形下料问题,是将板材材料加工成满足一定需求的矩形毛坯,在满
近年来,随着物联网技术的快速发展,作为其支撑技术之一的无线传感器网络技术也得到了迅速的发展。无线通信技术的迅速普及,使得异构系统之间的共存与干扰问题日益严重。随着ZigB
信息技术的高速发展极大地丰富了网络资源,为人们获取信息带来了方便。但是由于网络资源的逐渐增多,面对繁杂的信息,用户要找到所需的信息也变得更加困难,信息过载的问题便随
计算机技术发展给人们生活带来了革命性的改变,人们希望能够和计算机更加有效地沟通,因此,自然语言处理技术应运而生。词性标注作为自然语言处理中一个重要的基础性研究课题,具有