数据流聚类方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hmei_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的高速发展,以数据流形式呈现的数据信息大量涌现。例如传感器网络中传回的传感器数据,浏览网页产生的网络点击流,证券买卖产生的实时交易信息等等。这些数据往往具有数据量大,潜在无限,产生速度快,数据分布随时间变化等等特点。这些特点使得运行其上的数据挖掘算法必须满足如下条件:(1)整个数据流只被遍历一次;(2)每个数据必须在很短的时间被处理;(3)整个处理过程占用的存储空间是有限的;(4)算法应尽可能考虑到数据流的演化。上述要求使得传统的聚类方法无法直接应用到数据流上。 目前,已经有一些学者提出了若干适用于数据流的聚类方法。但仍存在许多尚未解决的问题。本文的贡献包括: (1)本文提出了一种用以记录数据流摘要信息的数据结构DenseGrid树(简称DG树),通过搜索树中路经将高维空间聚类问题转化成构造DG树并利用这种数据结构搜索发现高密单元格的过程。实验表明,这种聚类方法具有良好的聚类效果和可扩展性,并且可用于发现不同形状的簇。 (2)本文提出了一种可以响应不同时间段的聚类请求的高维数据流聚类方法(DGMStream)。该方法使用倾斜时间窗口技术拓展了DG树。从而在保持DG树聚类性能的前提下,实现了高维数据流的多时间粒度聚类。 (3)结合传统的Parzen窗方法并引入一种经证明更加有效的历史数据丢弃策略,本文提出了一种新的适用于数据流的概率密度估计方法(TPWD)。 (4)本文在(3)此基础上,提出了一种计算整个数据集在低维空间投影的信息熵的方法,我们证明了信息熵与数据可聚性存在着某种内在联系,并利用信息熵实现了一种适用于高维数据流的聚类方法(PStream)。理论及实验均表明,与传统的方法相比,该方法可以在一次遍历的前提下,完成对数据流的高精度聚类,虽然其运行效率与现有的方法(如HPStream)相比差别不大,但是却明显地改善了聚类效果。
其他文献
无线传感网络具有可快速部署、易组网、不受有线网络约束等优点,因此具有广泛的应用前景。在这些实际应用中,节点定位有着广泛的需求,是无线传感网络的关键问题。为了有效的解决
智能决策支持系统(IDSS)是决策支持系统和人工智能技术相结合的产物,有效地解决了系统中定量与定性相结合以及半结构化、非结构化的问题,扩大了决策支持系统的应用范围,提高
近年来,随着计算机以及网络技术的不断发展,对于家禽的养殖,粮食的存储,烟叶的保存等都用到了计算机技术。将计算机网络技术与硬件传感器技术相结合,形成了一套完整的对于温度,湿度
近年来,P2P网络伴随着大规模的分布式应用而得到迅速发展,但是,由于参与到其中的对等节点本身存在着匿名和动态的特性,这使得该网络存在的安全隐患也愈加暴露出来。这使得我们必
无线传感器网络(Wireless Sensor Networks,简称WSN)集传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术等技术于一体,协作地进行实时监测、感知和采集网络分布区
P2P是对等节点间直接交换资源和服务的网络技术,是为了适应节点间越来越高的信息直接交互需求而产生的,且发展迅速。在企业网中,P2P技术为员工带来便捷的同时,也导致了以下问题:
网格计算(grid computing)被认为是继因特网和Web之后的第三次浪潮,是下一代互联网技术研究与应用的重要领域之一。网格计算主要研究在分布、异构、自治的网络资源环境中动态
近几年来,国内外很多专家学者投入了大量的精力去研究人工智能,促使人工智能在各个领域取得飞速发展。而把人工智能与现代教育结合起来,也是诸多专家学者研究的热点。通过人
动画产业被称为21世纪的朝阳产业,渲染是动画制作的重要步骤,传统动画渲染有渲染时间长、无法自动分配帧、渲染数据量大并且无法实时传输和处理等缺陷,这就迫切要求有新的技
随着计算机网络的迅速发展,通过因特网传输的数字产品非常容易受到非法拷贝和窜改。数字水印技术的诞生正是为了解决这个问题。而公钥数字图像水印是数字水印技术的一个分支,