数据流的频繁模式挖掘算法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户：hrbhou

【摘要】

：

随着信息技术的发展,海量数据库迅速增加,对其有效的分析处理技术的缺乏逐渐显现。在此需求的推动下,数据库中知识发现(Knowledge Discovery in Databases,KDD)技术应运而生

【作者】

：

黄威

【机构】

：

西安科技大学

【出处】

：

西安科技大学

【发表日期】

：

2010年期

【关键词】

：

数据挖掘数据流频繁模式频繁模式树界标窗口滑动窗口

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展,海量数据库迅速增加,对其有效的分析处理技术的缺乏逐渐显现。在此需求的推动下,数据库中知识发现(Knowledge Discovery in Databases,KDD)技术应运而生。而数据挖掘(Data Mining,DM)是KDD中的重要过程,在该过程中系统采用智能算法从数据中提取有益的数据模式。其中频繁模式(Frequent Pattern)挖掘是DM中重要的研究问题。近年来,大量数据以数据流(Data Streams)的形式产生,如网络数据、交易数据等。区别于传统的静态数据,数据流具有连续性、无序性、无界性及实时性的特点,这对挖掘数据流中的知识带来了新的研究挑战。挖掘数据流中的频繁模式已成为当前数据挖掘领域的一个研究热点。本文主要针对数据流挖掘中的重要问题之一—数据流频繁模式挖掘展开研究,主要内容如下:首先,对数据流挖掘技术及其特点进行了介绍,然后对数据流频繁模式挖掘的基本概念及其关键问题进行了介绍,最后对数据流频繁模式挖掘的几个典型算法进行了研究。其次,提出了基于界标窗口的数据流频繁模式挖掘算法—Prefix-stream算法,该算法利用提出的数据结构P-tree同时对整个数据流的频繁模式进行挖掘、保存和更新。此外,该方法还应用对数倾斜时间窗口达到逐步降低历史事务的权重,从而区分最近事务与历史事务。实验结果表明,该算法的性能优于同类FP-stream算法。最后,提出了基于滑动窗口的数据流频繁模式挖掘算法—PSW算法。该算法通过将滑动窗口分割为若干个基本窗口,以基本窗口为更新单位,使用提出的前缀滑动窗口树PSW-tree来挖掘基本窗口的频繁模式。挖掘时,将频繁模式存储到同一PSW-tree中,同时删除PSW-tree上过期的及不频繁的模式分支。因此,挖掘和更新滑动窗口中的所有频繁模式是在PSW-tree中同时进行。实验结果表明,算法具有较好的性能。

其他文献

粒子群并行化研究及并行软件包研制和应用

随着问题复杂度和问题规模的增加，为了能够及时高效地获得对问题的求解，人们将问题的求解诉诸于并行计算，使得并行计算获得飞速发展。因此，为了扩大粒子群算法的应用领域，将其并行

学位

粒子群算法群体智能并行软件包并行计算

机房安全监测报警系统设计与实现

随着网络、通信和计算机系统的大规模应用和发展,作为其核心的机房的安全问题变得越来越重要。机房安全涉及不同厂商的多种动力、环境设备,没有统一的监测报警平台为机房安全

学位

机房安全监测报警Ajax

基于UML和CPN的软件性能评价研究

由于传统观念的影响对于软件系统性能的管理,总是采用“以后修正”方法即在软件系统设计实现完成以后再对软件系统进行测试评价,发现问题从软件设计开始修改,有时候甚至需要

学位

CPNUML软件性能评价系统仿真

基于DeltaOS的AADL行为附件模型到C转换及其应用

随着经济社会飞速发展,嵌入式软件需求越来越大,人们对嵌入式软件的功能要求也越来越高,再加上行业之间竞争不断加剧,以及新技术的不断涌现,这使得传统以编程语言为中心的嵌

学位

行为附件模型映射规则代码自动生成

大坝形变监测数据处理方法研究

近年来,随着计算机辅助分析在工程领域的发展,利用计算机实现大坝安全监测信息的智能管理和数据分析处理是大坝安全监测系统的发展趋势。与之相关联的传感器技术、网络通信、

学位

大坝安全监测数据挖掘决策支持小波分析BP神经网络大坝形变监测

改进的PSO优化ELM算法在医学图像分割中的应用研究

由于医学图像背景复杂、信噪比低和无统一的衡量标准等问题导致医学图像分割问题一直是一个难点。如何选取一种分类准确性高且时间开销小的算法分割医学图像是一个值得思考的

学位

粒子群算法极限学习机算法极值自适应调节脊髓分割

基于改进的蚁群算法在分类规则中的应用研究

Marco Dorigo等学者提出了模拟蚂蚁群体智能行为的蚁群算法。它是神经网络、遗传算法等之后的又一种对解决组合优化问题、指派问题、调度问题都取得良好效果的优化算法。仿真

学位

旅行商问题群体智能蚁群算法数据分类蚁群分类算法

安徽省农业环保数据库系统建立——草莓生态适宜性评价研究

随着农业数据库的普及和应用领域在不断扩大，建立一系列功能完善、结构体系完整的农业数据库对实现资源的高度共享、促进生产和流通的有序进行，加快成果的研究和转化步伐、创造

学位

安徽省农业环保数据库系统生态农业草莓生态适宜性评价

基于上下文语义相似性约束的蛋白质交互关系识别

蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要

学位

蛋白质交互词性单词相似性关系相似性Minimum CutsSVM

基于倒排索引的增量更新关联挖掘算法的研究

关联挖掘是用来发现海量数据集中数据项之间存在潜在的、有价值的关联关系,以便于商业决策提高企业利润。随着移动互联网、人工智能、信息处理、机器学习、物联网等各种计算

学位

倒排索引MapReduce增量更新挖掘频繁项集关联规则

数据流的频繁模式挖掘算法研究

其他学术论文