论文部分内容阅读
频繁项集挖掘是数据流挖掘中重要的研究领域,目前国内外数据流频繁项集挖掘算法还存在诸多问题。例如模式产生延迟比较严重;挖掘出的频繁项集相当庞大;简单的挖掘算法没有面向应用,不能满足用户的需求。针对这些问题,本文主要研究基于FP-Tree概要数据结构上的数据流频繁项集挖掘算法,其研究成果对顾客购物模式、网络通信的错误分析、电子商务、商业智能以及市场决策等领域具有重要的意义。首先,本文提出一种在数据流中基于滑动窗口的挖掘频繁闭项集的算法MFCI-SW。该算法在滑动窗口所对应的FCIL中记录频繁闭项集数据项的支持度计数和窗口序列号,随着新窗口的到来,删除K值最小的数据项同时插入新窗口频繁闭项集的数据项,在模式树中通过指针剪除K值最小的数据项所对应的节点,同时插入新节点,最后完成模式树的更新。该算法能提高频繁项集挖掘的执行效率。其次,本文提出一种在数据流中基于时间衰减模型的挖掘最大频繁项集的算法MFI-TD,该算法首先构建一种新的数据结构来存储当前窗口中的事务,并用DP指针指向最大频繁项集;并在此基础上,通过时间衰减模型来对PW-tree进行剪枝,输出当前所有的最大频繁项集。该算法与已有的DSM-MFI算法相比有较好的时间效率。最后,本文提出一种用于获取故障知识的序列模式挖掘新算法SPM-LM,该算法为每一个事件建立一个位置矩阵记录它们在序列中的位置信息,通过两个指针对位置矩阵操作运算生成频繁K序列,提高了模式发现的效率。本文使用现实数据集进行挖掘,通过实验对本文所提出的MFCI-SW算法、MFI-TD算法以及SPM-LM算法进行验证。