基于密度的数据流聚类分析模型DB-DSCM研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xinwei313624094
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展,企业数据库中所积累的数据也呈指数级别迅速增长,对海量数据中所蕴涵知识的探究促进了数据挖掘技术的研究。近年来,出现了基于数据流的数据密集型应用。基于数据流的应用具有大规模,持续性,潜在无限性和瞬时性等特点,传统数据挖掘方法在处理数据流时将面对内存受限,单次扫描等限制,变得效率低下。因此,对数据流应用中数据挖掘技术的研究和算法的改进成了数据挖掘技术中的重要一支,并处于持续的发展中。 聚类分析是数据挖掘中的一个重要组成部分,用于发现潜在数据中的有用数据分布和数据模式。根据流式数据的特点,其相应的聚类分析算法应能够持续的对输入数据进行处理,根据数据源的变化不断对聚类中心进行更新。 在本文中,我们分析了基于数据流聚类分析技术的特点,并主要针对以下问题提出解决方案: 1、目前的数据流聚类模型大多数是基于k-中心或k-均值的,它们不具备任意形状簇的挖掘能力。 2、模型要具备一定的抵抗噪声的能力。 3、模型要具备满足任意时刻聚类需求的能力。 我们采用基于密度的聚类分析技术,在延伸CluStream算法思想的基础上,引入候选微簇和噪声微簇对微簇结构进行进一步的划分,提出了一个新的基于密度的聚类分析模型DB-DSCM。 DB-DSCM模型采用基于密度的DBSCAN算法对初始数据集进行处理,形成微簇集合,DB-DSCM模型的核心部分是选择归类模块和微簇在线维护模块,前者按照一定的规则对新到达的数据对象进行分析处理,选择合适的微簇进行归并,后者依照一定的权重衰减规则,周期性对微簇进行维护。在聚类结果生成时,模型同样采用基于密度的DBSCAN算法对由微簇构成的虚拟数据点进行处理。 本文针对DB-DSCM,选择适当的真实数据集与人工数据集进行实验,对模型的聚类质量进行评估,并对模型的抗噪声能力和执行效率问题进行了测试分析。实验结果表明,DB-DSCM模型具备较高性能的数据流聚类处理能力。
其他文献
随着无线传感器网络的广泛应用,针对其研究也越来越多,一个热点问题是能源供应。众所周知,工业电池仍是各种移动设备的瓶颈,频繁更换电池消耗大量人力、物力和财力。在这种情
经食管超声心动图是近几年出现的超声心脏图像采图技术,较以往的超声采图技术,有较高的成像质量。但由于医疗条件限制,临床采图过程只能由有限的人进行学习操作。经食管超声心动
近些年来,以在线社交网络、博客、微博、社会化新闻站点、线上虚拟世界等为代表的社会媒体网站出现了井喷式发展。这些平台为数以亿计的用户提供了一个前所未有的机会来创建并
嵌入式系统是一个快速发展的领域。嵌入式系统的研究内容涉及到计算机学科的各个方面。目前主要关注的应用领域是网络系统、无线网络、3G应用、消费电子等。主要的技术热点包
随着多媒体和网络技术的发展,建立在Internet上的多媒体应用占据越来越重要的地位,而视频媒体则是多媒体应用中的一个不可缺少的重要部分。多媒体应用的开发都需要建立和管理一
当前广泛开展的大规模天文观测将产生海量的天体光谱数据。收集了海量的光谱数据后,需要对其分析和确定其类型,这可以帮助天文学家从统计学的角度研究天体的演化。因此天体光谱
数据融合这一概念最早出现在20世纪70年代末期,开始并未受到足够的重视。近几十年来,随着传感器技术的迅速发展,尤其在军事指挥系统中对提高综合作战能力的迫切要求,使其得到了长
塑料卡片(如电话卡,充值卡等)已经深深地渗透到人们生活中,其需求量非常大。在卡片生产实践中我们发现,每张塑料卡片上带有的独特信息(如电话卡账号、密码等)能够赋予卡片远超过
随着科学技术的不断发展,人们对印刷品质量有了更高的要求,税票印刷行业也是如此。然而,由于机械精度、印刷工艺等各方面的影响,税票印刷过程中不可避免的会出现污点、漏印、飞墨
随着软件系统的老化,软件演化已成为软件工程的一个新兴领域。软件演化就是指对遗传软件系统在其生命周期中不断维护,不断完善的系统动力学行为;是对软件系统不断地再工程,使之能