数据流的频繁模式挖掘算法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:hrbhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,海量数据库迅速增加,对其有效的分析处理技术的缺乏逐渐显现。在此需求的推动下,数据库中知识发现(Knowledge Discovery in Databases,KDD)技术应运而生。而数据挖掘(Data Mining,DM)是KDD中的重要过程,在该过程中系统采用智能算法从数据中提取有益的数据模式。其中频繁模式(Frequent Pattern)挖掘是DM中重要的研究问题。近年来,大量数据以数据流(Data Streams)的形式产生,如网络数据、交易数据等。区别于传统的静态数据,数据流具有连续性、无序性、无界性及实时性的特点,这对挖掘数据流中的知识带来了新的研究挑战。挖掘数据流中的频繁模式已成为当前数据挖掘领域的一个研究热点。本文主要针对数据流挖掘中的重要问题之一—数据流频繁模式挖掘展开研究,主要内容如下:首先,对数据流挖掘技术及其特点进行了介绍,然后对数据流频繁模式挖掘的基本概念及其关键问题进行了介绍,最后对数据流频繁模式挖掘的几个典型算法进行了研究。其次,提出了基于界标窗口的数据流频繁模式挖掘算法—Prefix-stream算法,该算法利用提出的数据结构P-tree同时对整个数据流的频繁模式进行挖掘、保存和更新。此外,该方法还应用对数倾斜时间窗口达到逐步降低历史事务的权重,从而区分最近事务与历史事务。实验结果表明,该算法的性能优于同类FP-stream算法。最后,提出了基于滑动窗口的数据流频繁模式挖掘算法—PSW算法。该算法通过将滑动窗口分割为若干个基本窗口,以基本窗口为更新单位,使用提出的前缀滑动窗口树PSW-tree来挖掘基本窗口的频繁模式。挖掘时,将频繁模式存储到同一PSW-tree中,同时删除PSW-tree上过期的及不频繁的模式分支。因此,挖掘和更新滑动窗口中的所有频繁模式是在PSW-tree中同时进行。实验结果表明,算法具有较好的性能。
其他文献
随着问题复杂度和问题规模的增加,为了能够及时高效地获得对问题的求解,人们将问题的求解诉诸于并行计算,使得并行计算获得飞速发展。因此,为了扩大粒子群算法的应用领域,将其并行
随着网络、通信和计算机系统的大规模应用和发展,作为其核心的机房的安全问题变得越来越重要。机房安全涉及不同厂商的多种动力、环境设备,没有统一的监测报警平台为机房安全
由于传统观念的影响对于软件系统性能的管理,总是采用“以后修正”方法即在软件系统设计实现完成以后再对软件系统进行测试评价,发现问题从软件设计开始修改,有时候甚至需要
随着经济社会飞速发展,嵌入式软件需求越来越大,人们对嵌入式软件的功能要求也越来越高,再加上行业之间竞争不断加剧,以及新技术的不断涌现,这使得传统以编程语言为中心的嵌
近年来,随着计算机辅助分析在工程领域的发展,利用计算机实现大坝安全监测信息的智能管理和数据分析处理是大坝安全监测系统的发展趋势。与之相关联的传感器技术、网络通信、
由于医学图像背景复杂、信噪比低和无统一的衡量标准等问题导致医学图像分割问题一直是一个难点。如何选取一种分类准确性高且时间开销小的算法分割医学图像是一个值得思考的
Marco Dorigo等学者提出了模拟蚂蚁群体智能行为的蚁群算法。它是神经网络、遗传算法等之后的又一种对解决组合优化问题、指派问题、调度问题都取得良好效果的优化算法。仿真
随着农业数据库的普及和应用领域在不断扩大,建立一系列功能完善、结构体系完整的农业数据库对实现资源的高度共享、促进生产和流通的有序进行,加快成果的研究和转化步伐、创造
蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要
关联挖掘是用来发现海量数据集中数据项之间存在潜在的、有价值的关联关系,以便于商业决策提高企业利润。随着移动互联网、人工智能、信息处理、机器学习、物联网等各种计算