基于数据流的分布式并行谱聚类算法的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yyy021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信用卡欺诈检测、股票和证券市场交易(金融分析)、网络入侵监测、社交网络分析等现实世界的行为活动中,数据以无限的、实时的、动态的流形式出现。根据数据流无穷、实时、有序、大规模等特性可知,对静态数据进行聚类的算法无法达到数据流的处理要求。本文针对以上问题从三个方面予以研究:1、根据CluStream聚类算法的主要架构思想,把OOSCA算法(Online Offline Spectral Clustering Algorithm,OOSCA)分为在线层汇总数据概要结构信息和离线层精确聚类双层架构模型。由于数据流大规模高维的特性,本文利用核函数成分分析法(KPCA)对数据进行降维,又因为界标窗口不能解决滑动窗口数据模型,而滑动窗口对大量信息的维护增加了数据存储的负载,因此,提出基于KPCA的时间衰减的数据流在线聚类方法。2、离线层采用基于图论思想的谱聚类规划方法,可以利用图的最优、最佳划分的解决方案来代替对大量数据集的聚类操作。它能够适用于现实世界中任何形态的样本集合,并可以最大程度地接近最优解。首先,本文利用NIF(New Intuitionistic Fuzzy,NIF)相似度量的方法创建相似矩阵。为了提高聚类的效果和精度,采用改进的t-最近邻方法对相似矩阵进行稀疏化,并对其结果作离群点调优处理。应用ε-最近邻粗糙集模型计算k-means的初始聚类中心并对数据进行聚类。3、在数据进行聚类的过程中存在大规模的繁杂运算,因此算法时间复杂度较高。在构建相似矩阵、求解Laplacian矩阵的前k个特征向量和计算k-means初始聚类中心时,它们之间不存在相互依赖的紧密关系,所以本文结合Hadoop MapReduce分布式存储和并行计算等各种有利的特性,对上述三个阶段进行并行计算,进而减少聚类复杂运算所花费的时间。实验结果表明,改进后的数据流分布式并行谱聚类算法在聚合质量、精度、减少计算量等各方面具有较好的效果。最后,对本文所做的相关工作予以总结,并对其他方面的探索做出展望。
其他文献
PKI作为一种普适性的安全基础设施,能够保障网络安全,解决网络通信中的信息安全问题。PKI要想给用户提供身份认证与授权,信息完整性、保密性与不可抵赖性的保证,其基础就在于
在汽车保有量逐年增长的当今社会,公共交通是解决城市交通拥挤问题的主要手段。   大力发展公共交通能有效的减少道路交通量,减缓交通压力和对环境的污染压力。智能公交调度
进入二十一世纪以来,随着互联网的迅速发展,IT企业需要将其业务和产品包装成了服务,以达到在互联网上共享服务的目的。论文根据国家“十一五”科技支撑计划重大项目“现代服
基于角色的访问控制模型是近十几年来在自主访问控制和强制访问控制的基础上发展起来的一种重要的访问控制技术。基于角色的访问控制模型的特点是通过分配和取消角色来完成用
在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的
计算机软件技术广泛应用于各个领域,人们对于软件系统的可靠性要求日渐提高,实时软件可靠性是关注的焦点之一,而软件可靠性测试是提高软件可靠性的一个重要方法。随着面向对
在当前的网络体系结构中,IP地址存在着语义过载问题,即它既作为主机的身份标识符,又作为主机的位置标识符。由此导致主机在移动性和多穴的实现上遇到一系列难题,同时这种语义
随着人类经济、政治及文化活动的不断发展和科学技术水平的不断提高,人们之间的信息交流日益频繁。通信的形式和种类也越来越多,声音和图像具有直观性强、承载的信息内容丰富
随着计算机技术的发展和网络技术的进步,以提高软件灵活性、扩展性为目的的中间件技术得到越来越多的关注。同时,国内城市监控系统的需求也在日益增长。为了适应国内城市监控