序列模式挖掘维护算法的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yc668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的序列模式挖掘算法能有效地在大型数据库中挖掘出完整的序列模式集。然而在这些算法中仍存在两个值得注意的问题,一是大多数增量挖掘算法一般只考虑向数据库中增加事务和数据序列的情况,很少考虑删除这些数据的情况;二是目前序列模式的增量式挖掘算法主要集中在数据库更新基础上的序列模式维护技术的研究,很少有算法考虑到当算法参数发生变化时,如何根据前次挖掘结果尽快挖掘新条件下的序列模式集。这两类问题的研究在电子商务、顾客购物模式以及Web访问挖掘等领域中具有重要的意义。 针对以上两个问题,本文首先提出了当从序列数据库中删除某些数据时序列模式的增量式更新算法。该算法以Apriori的候选产生和测试策略为基础,将前次挖掘得到的频繁序列集保存起来,同时采用一种新的候选序列集生成方法,仅生成新出现的候选模式,缩小了模式的搜索空间,在一定程度上减小了候选集的规模,降低了模式挖掘的时间。在从序列数据库中删除数据的情况下进行序列模式的增量式挖掘时,该算法的性能明显优于GSP。 其次,提出了当算法参数发生变化时序列模式的增量式更新算法。该算法基于候选库CB的结构,将前次挖掘得到的候选序列模式及其支持度的信息都保存在候选库中,以便下次挖掘时使用。当指定的最小支持度小于前次挖掘时的最小支持度时,挖掘过程中应及时对候选库进行更新。该算法减小了候选集的规模,缩小了模式搜索空间,降低了模式挖掘的时间。在最小支持度阈值逐渐变小时,该算法的性能明显优于GSP。 实验结果表明,本文提出的两种算法在挖掘时间上以及生成的候选集的规模上都明显优于现有的同类算法,实现了预期的研究目标。
其他文献
随着互联网的飞速发展,以及云技术和大数据在这几年被越来越多的大公司所关注,人们开始享受这些新兴技术带来的便捷的同时也遭受着无孔不入的网络入侵行为。网络安全已经成为
国画作为一种独特的艺术创作形式,是我国传统艺术与文化的重要组成部分,正逐步进入国际上的艺术收藏市场。但大量的赝品使得国画的国际化步伐大为减慢。传统的国画真伪鉴别方式
入侵检测系统是网络安全体系的一个重要的组件。传统的完全基于神经网络的入侵检测系统难以获得丰富充足的样本。因此,目前的入侵检测系统面对不断变化和升级的网络配置缺乏
随着Internet的飞速发展,Web网已成为一个巨大的分布式信息空间,为人们提供大量的信息资源,其中有一类极具价值的资源,它们包含了特定的知识,人们可以通过访问这些资源来掌握资源
学位
随着网络应用需求日益朝着高性能、大规模、多样性的方向发展,对Internet网络提出了更高的分布式要求:需要这种以用户为中心的网络具有自扩充性、可移动性、可生存性、简单易
网格系统中包含各种各样的资源,这些资源具有动态变化、广域分布、系统异构等特性。网格资源管理与调度的目的就是要解决资源的描述、组织、管理等关键问题,它是整个计算网格
细纱机性能优劣对成纱的产量和质量都有重要影响。目前,国内棉纺厂所使用的细纱机一般通过人工操作完成,存在着更换纺纱品种过程繁琐、精度低、自动化水平低等诸多缺点。虽然国
面向服务架构是目前广泛使用的网络资源发布与访问的重要支撑手段,而随着信息化的快速发展,产生了越来越多的跨信任域之间互操作要求,在多信任域的环境下,如何保障服务的安全
由于Modbus应用协议的开放性使之成为工业控制领域中应用最广泛的协议之一。基于Modbus应用协议族的工业以太网解决方案也逐渐被应用于各种现场级测控领域。其中基于MODBUS/T
随着医疗成像设备的发展,医学影像的成像精度和数字化程度的提高,海量的有待临床医生及时做出诊断的影像的不断涌现,加速了计算机辅助诊断的出现和发展。本文面向计算机辅助诊断