数据流频繁项集挖掘系统的研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:z58119366
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,新型的数据流模型出现在数据挖掘领域中,这使得该领域的发展出现了新的挑战。由于数据流的动态性,使得已有的针对静态数据的成熟挖掘技术无法对这种连续到达、无限规模的数据进行有效的信息挖掘,所以对于数据流的挖掘逐渐成为国内外研究人员的关注点。对于数据流挖掘的研究,可以应用在广泛的生活环境中,比如电信行业、大型连锁超市销售行业、多传感器网络领域以及网络监控领域都有其存在应用的意义。带着如此规模巨大的应用前景,相信数据流挖掘技术会飞速发展。本文在引入数据流挖掘的相关概念及数据挖掘中相关算法理论的同时,主要研究了数据流中频繁项集挖掘的问题,提出了一个基于CAN-tree概要数据模型的数据流频繁项集挖掘系统的实现方法,在该系统实现中,改进了概要数据模型的构建方式,提出与之匹配的频繁模式挖掘算法,并通过多次实验得出结果,并做了结果分析。本文主要涉及到以下几个方面的内容:1、引入数据流挖掘概念。对比静态数据,讲述数据流的概念,发展过程及其特点;介绍当前存在的一些数据流模型构建算法,数据挖掘中关联规则和频繁模式挖掘的一些经典算法;介绍数据流管理系统目前的发展现状及特点。2、设计了基于CAN-tree结构的概要数据模型。引入训练的思想,使用前期数据流事务集构建基本有序的项头表,提高了后期子树的压缩率;改进子树的结构,使其更符合后期的频繁模式挖掘的需要;3、提出了FPMC算法。在基于改进的CAN-tree结构上,提出了一种快速的频繁模式挖掘算法,省去了以往的递归思想,使得后续的挖掘过程中尽量节省资源,提高挖掘速度和效率,使其更符合动态的数据流挖掘的思想。总体上讲,通过多次实验证明,系统基本满足了预期的设计期望,实现了一个基本符合数据流挖掘系统定义的完整应用系统。
其他文献
随着信息化的飞速发展,网络安全事件日益剧增,而对于入侵检测也成为热门的话题。国外的银行、警察署服务器、国家电网等重要行业均遭受到不同程度的威胁,且损失较为严重。在2015
随着当代互联网应用的发展,P2P(Peer-to-Peer)已经成为发展最快的网络应用之一。由于P2P技术具有文件共享、分布计算等优点,使得P2P流量占据了网络流量大部分的同时其技术也
语音识别已经得到突破性进展和广泛的应用,随着语音识别的发展不断提出新的需求,首先声学参数与发音人的自然属性相关,其次对声学参数的计算依赖大规模的语料资源,同时,语种
网格是一个集成的计算与资源环境,能够吸纳各种计算资源并将它们转化成一种随处可得的、可靠的、标准的、经济的计算能力。网格计算适用于大型的科学计算和项目研究,已成为继
高性能计算在科学研究和工程应用中扮演着日益重要的角色,其面临的基本问题之一是超大规模非线性方程组的数值求解。非线性系统维数的巨大,常常导致算法不仅对内存有巨大的需
移动机器人在真实世界中执行任务时,所面对的环境无论是室内的还是室外的、静止的还是动态的,甚至包括机器人本身在内都是三维立体的,因此,研究移动机器人在未知环境中建立一致准
功能核磁共振成像技术以其无创性、高空间分辨率给人类研究大脑提供了很多的便利。随着核磁共振的发展,它被越来越多地用于医疗和科学研究。目前国内外对于脑部fMRI数据的研
为处理模糊信息,1965年Zadeh 提出了Fuzzy 集理论,之后Fuzzy 集理论得到不断发展和完善,并成功应用于数据挖掘领域,相应的基于Fuzzy 集理论的数据挖掘算法研究较多并运用于实际工
计算机系统的能量消耗在全球的所有耗能设备中占据着举足轻重的地位,功耗成为企业和用户选购计算机的一个重要参考因素。龙芯计算机采用我国自主研制的龙芯处理器生产而成,其
软件测试在软件开发过程中是一个极其重要的环节,但是软件测试本身却是一个过程复杂、耗时耗力且具有较高重复性的工作。为了提高软件测试的效率人们开发了多种适用于软件生