数据流聚类算法及其应用的研究

被引量 : 0次 | 上传用户:wanglyyou66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到极大的提高。数据流(Data Streams)作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的数据挖掘技术及其算法研究已成为重要的应用前沿课题。数据流是一组顺序的、大量的、快速的、连续到达的、事先未知的数据序列。一般情况下,数据流可以被视为一个随时间延续而无限增长的动态数据集合。对流中数据的访问和处理代价通常比较高。因此,仅一次地访问数据成为数据流算法所追求的目标。数据流的特性对传统聚类方法提出了许多新的挑战。例如,仅一次地扫描数据流并产生高质量的聚类结果;任意时间段内的窗口分析等。当前,数据流聚类算法仍然面临着一些较难解决的问题,主要包括分割数据流造成全局信息缺损从而影响聚类效果;时间复杂度较高,难以实现有效的基于密度的聚类,以便发现数据空间中不规则分布的高密度区域等。本文针对数据流聚类算法及其应用进行了深入的研究,提出了一种改进的顺序数据流聚类算法以期解决或改善上述问题,并进一步研究了该算法在邮件过滤和入侵检测这两个领域的应用。其主要内容如下:首先,提出了一种改进的基于数据流的顺序聚类算法。该算法的目标是在尽量保留聚类质量的基础上,同时提高处理速度。对其中的难点采用了标准工具集解决。实验表明,该算法不仅没有损失聚类精度,处理速度也得到有效提高,适于数据流聚类应用。其次,针对当前垃圾邮件的特点,将本文提出的数据流聚类算法与支持向量机相结合,构造了一种邮件过滤模型。实验表明,该模型的处理速度,分类精度都有所提高,且具有良好的泛化能力和较强的自适应性。最后,针对现代网络的复杂性以及入侵手段日新月异的特点,用本文提出的数据流聚类算法对入侵信息进行聚类分析,并应用分析结果指导支持向量机分类,建立了一种入侵检铡模型。实验结果表明,该模型较之同类模型的检测效果有了明显提高,增强了模型的自适应学习能力,提高了处理速度。
其他文献
针对WSN中节点的定位误差的问题,提出了一种阶次序列加权的无线传感器定位算法。首先根据节点定位中的信号传输采用Shadowing模型,其次根据锚节点建立Voronoi图,将Voronoi多边形
在低渗透和特低渗透油田,有时水平井单井产量也很低,不能满足经济开发的要求,这时通常需要对水平井实施水力压裂增产技术。但目前对水平井压裂裂缝形成机理认识不够全面。文
目前,微地震技术已被广泛应用于监测油田的生产动态,在油田开发中发挥了越来越重要的作用。微地震压裂监测技术与其它地震勘探技术相比具有自己的独特性,这也导致微地震资料
随着互联网和信息技术的飞速发展,数字资源的类型多样化,数字资源的分布异构化,每个数字资源承载的数据海量化,如何充分的整合利用这些数字资源,并利用这些资源从信息之海中
城市是现代社会政治、经济、科学技术和文化教育的中心,是人类文明进步的重要标志。自改革开放以来,我国城市进入了迅速发展的时期,在经济建设和现代化建设的进程中,城市的地
随着经济的发展及科技和社会的进步,我国传统的家庭养老观念己开始转变,养老方式由主要以家庭养老为主向以社会和家庭养老共存的方向发展。老年公寓作为一种满足生活自理的健
民事诉讼简易程序是民事诉讼法的一个重要组成部分,有其自身独特的价值,在民事审判实践中发挥着十分重要的作用。随着我国民事诉讼理论研究及民事审判方式改革的不断深入,我
本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎
在目前经济全球化和区域一体化背景之下,区域合作已经成为趋势。区域经济合作正在成为经济全球化的重要载体之一,在世界经济中发挥着重要作用。区域经济一体化的发展给地方政
目前,我国小微企业融资缺口巨大,正在积极探索转型升级之路。我国小微企业自身存在一些问题,加之与小微企业相关的政策法律体系、融资体系、信用担保体系和资本市场体系有待