基于相似度及网格划分优化的数据流聚类算法研究

被引量 : 0次 | 上传用户:zzzzzz123zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前数据流聚类已成为数据流挖掘领域中的一个研究热点,由于数据流海量、快速变化、时序的、持续到达的特点及内存的限制,传统的聚类算法无法直接应用到数据流中,因此,研究适合数据流特点的聚类算法具有极大地理论意义和现实意义。本文重点研究基于相似度和网格划分优化的数据流聚类算法,解决因没有处理边界点和网格的“硬划分”影响聚类精度的问题。这些聚类算法的研究成果在无线传感,Web日志分析,软件安全,工业控制等领域具有广泛的应用前景。首先,提出了一种基于密度网格树和相似度的数据流聚类算法。该算法采用了Clustream算法的两个阶段框架结构。在线部分将每个数据点映射到网格单元中,采用树形概要数据结构来存放非空网格。离线部分基于密度的进行聚类,采用相似度的方法对边界点进行处理。其次,提出了一种基于子网格的不均匀网格的数据流聚类算法。算法首先对数据空间进行均匀网格划分,定义了孤立网格,并对孤立网格进行删除;以低密度的网格单元的质心为中心建立子网格,对稠密网格按深度优先策略寻找聚类。定义了子网格的邻居网格,根据稠密子网格与它的邻居网格的最小距离和密度相似度将稠密子网格合并到所属的簇中。本文中的算法使用C++语言实现。实验结果表明,本文提出的算法在聚类质量上和性能上优于对比算法。
其他文献
机电设备的安装与质量管理对于我国高速公路的建设工作具有非常重要的意义。施工工作的进行,对于工作人员的技能水平要求非常高,但同时问题的出现也是不可避免的。本文便对高
杨绛是个以理性和智慧著称的学者型作家,她一生勤奋,笔耕不息,除大量译著外,在散文、小说、戏剧及文学批评上均有建树。在杨绛蔚为大观的文学译著和文学作品中,其散文不但最
21世纪以来世界服务贸易增长速度已超过货物贸易,服务贸易的地位越来越高。但服务贸易理论较少、数据匮乏,相关的研究不多。服务贸易的界定及其壁垒的度量也同样是难题。因此
本文主要探讨和研究怎样建立和改善新闻节目主持人公信力问题,把广播电视新闻节目中的主持人作为研究对象。在分析新闻节目和主持人的相互关系的基础上,认清主持人是建立和维
经典的金融市场理论是以有效市场假说为基础的。在有效市场理论框架下,金融资产收益率遵循随机游走,即收益率服从正态分布。然而,现实的金融市场的一些现象却无法用有效市场
马克思主义认识论以实践为基础,以认识和实践为核心问题,实现了对传统认识论框架的变革。本课题基于对逻辑经验主义证实原则的考察和反思,将证实原则和马克思主义认识论尤其是实
集群经济已经成为当今世界经济发展的一大动力和趋势,表现出了明显的优势。对于产业集群的研究也日益受到了经济学者的重视,从产业集群的产生、发展趋势、动力演进等各方面分
乳腺癌的发病率呈每年上升的趋势,在女性恶性肿瘤死亡原因中占第二位。它是一类危害妇女健康的主要恶性肿瘤,其常规的治疗方法主要有化疗、放疗、手术和内分泌治疗等,但是与
金属材料的激光抛光处理是近十年来发展起来的一项新技术,在电子设备、精密机械、仪器仪表、医疗器械等领域都得到广泛的应用。本论文针对金属材料激光微抛光需求,主要研究对
使用液体碳氢燃料的超燃冲压发动机中的雾化是其工作中的一个重要环节,它对提高发动机的性能起着至关重要的作用。由于超声速气流中燃料射流从喷出到完全雾化的时间为毫秒量