基于密度的流数据聚类算法

被引量 : 0次 | 上传用户:Fijy520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业的大型数据库中蕴含的大量有用的信息资源,促进了知识发现和数据挖掘的兴起。聚类是数据挖掘中一个重要的分析方法,其定义如下:给定k维空间的n个数据点,把这n个点分成d个组,即满足最大的组内相似性和最小的组间相似性,使得不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。 数据挖掘、统计学、机器学习等很多领域都涉及到聚类分析,它被应用到市场营销聚类分析、空间数据技术、生物学、生物医学上基因分析、国土资源利用等诸多领域。数据挖掘领域中的聚类分析主要是针对大的数据集,相关聚类算法的研究主要集中在算法的可伸缩性、算法对聚类复杂形状和类型的数据的有效性以及处理不同类型属性的能力等方面。 近年来,越来越多的应用产生数据流,它是连续的、有序的、快速变化的、海量的数据。流数据不同于传统的存储在磁盘上的静态的数据,而是一类新的数据对象。典型的流数据包括网络与道路交通监测系统的监测信息数据、电信部门的通话记录数据、由传感器传回的各种监测数据、股票交易所的股票价格信息数据以及环境温度的监测数据等。流数据聚类分析成为聚类研究的一个重要方向。 流数据聚类分析较传统的聚类分析具有更大的挑战性,这是由流数据的特性所决定的。对流数据分析的要求如下:第一,有限的使用内存及存贮空间;第二,对数据的访问最多一次;第三,要能够跟上流的速度。本文分析了流数据对聚类的要求以及流数据聚类方面的最新研究成果。研究发现,目前的流数据聚类算法大多是基于k-中心或k-均值的算法,其缺点是不能对任意形状的数据分布进行聚类。传统的基于密度的聚类算法,如DBSCAN,可以发现任意形状的类,但这些算法的高复杂度及多次扫描数据集的需求不适合对流数据进行聚类。基于空间划分的算法CLIQUE可以发现任意形状的类,且只需一次扫描数据集。但是,该算法中产生的单元的个数与数据集维数成指数增长,算法的高复杂度不适合对流数据进行分析。 本文提出了一种新的索引结构CD-Tree对空间划分生成的非空单元进行索引,使生成的单元数大大减少。基于该结构,提出了一种基于密度的流数据聚类算法CDS,该算法可以实现对任意形状分布的流数据进行聚类。该算法分为滑动窗口上的在线聚类及基于磁盘的离线演化分析两部分。本文还提出了一种新的衡量数据
其他文献
中国经济学社于1923年创立,到1953年结束。是在马寅初、刘大钧主持下,以留美归国经济学者为主,集合全国政、学、商各界上层分子组成的经济学术团体。学社作为民国经济学界的
成矿系统是地球物质系统的重要组成部分,成矿作用是多组成和多重地质作用耦合的复杂动力学体系与复杂动力学过程,并以构造和流体作用为主导,构成构造、流体、成矿相互耦合的
本文首先对烟草业做了初步的市场分析,分析了影响卷烟销售的几个基本环境因素:经济收入水平、人口、节假日等。得出影响卷烟的销售的因子是多方面的,而且这些因子互相作用共
本文的主要内容分为三部分:第一部分,税收执法程序的一般理论。税收执法程序是指税收征收主体,实施税款征收行为,作出征税决定过程中所遵循的方式、步骤、时限和顺序的相互关
在我国现行商事法律体系中,营业执照系商事登记的产物,其一方面体现了国家工商行政机关对商主体实施的公权力监管,另一方面又在私法层面上与商主体的商事能力休戚相关。因此,
以威尔逊和古德诺“政治-行政”二分法为理论基础,主要由马克斯·韦伯创立的理性官僚制是在19世纪末20世纪初正式形成的一种行政管理体制。官僚制适应了西方工业化社会的需要
清朝末年,封建财政集权体制逐渐崩溃,国家财权严重“外移”和“下移”。清廷不得不开始仿照建立西方财政体制,划分国家财政与地方财政。这一财政改革举措没有取得成功,但它是
目的:探讨Rh阴性尿毒症患者接受Rh阳性供肾移植的可行性及疗效。方法:2例Rh阴性尿毒症患者接受Rh阳性供肾,术后定期随访,观察疗效。结果:2例患者均存活超过5年,肾功能良好。
近年来,基于IP的业务应用正以突飞猛进的速度发展,INTERNET技术正在成为通信领域业务发展的主要利润增长点。同时,移动数据业务的发展也呈现方兴未艾之势,快速发展的各种无线