基于加权多重最小支持度的挖掘算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:a1a1b1b1ccddee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据流的不断发展和应用,在数据流环境下的数据挖掘已经成为获取信息的主要方式,尤其是最大频繁模式的挖掘已成为当今的研究热点,它能提供决策支持和商业预测,因此在实际中有很大应用价值。最小项目支持度MIS(Minimum Item Support)是对数据流中的每个数据项,设置关键属性的支持度,以便对数据项进行修剪后的挖掘;而最大频繁模式MFPs(Maximal Frequent Patterns)是在MIS的基础上挖掘最大频繁模式。现有的最大频繁模式MFPs虽然具有较高的压缩比,但只是考虑了支持度的挖掘条件,而没有区分每个频繁模式的权重,无法反应实际属性信息。因此对MFPs算法进一步扩充和完善是十分有意义的。在分析和总结MFPs的算法优缺点的基础上,本文进一步做了以下的研究工作:1.现有MFPs算法对频繁模式的挖掘过程中,会产生大量的中间集,耗费了大量的时间和空间,并且没有考虑到多重支持度的挖掘条件。针对上述问题,本文构造了数据存储结构CPLMS-tree(Compact Preorder Linked Multiple Supports tree),并提出了能够满足多重最小支持度的频繁模式挖掘算法MSCP-growth(Multiple Support-Conditional Pattern growth):通过数据结构中构建的属性iflag来表示子序列是否为频繁项,mps来表示最小的MIS值,并将上述两个属性值作为修剪条件,通过对存储的频繁数据项设置不同的支持度来挖掘频繁模式,可以较大减少频繁模式候选集产生的数量,快速地获得有价值的频繁模式。最后通过实验将所提算法与传统算法PLWAP-Mine进行比较,验证了MSCP-growth算法在执行时间、频繁模式候选集和频繁模式产生的数量,以及空间占用大小等性能上优于PLWAP-Mine算法。2.在数据流环境下,现有的加权最大频繁模式WMFPs(Weighted Maximal Frequent Patterns)算法,对频繁模式的挖掘需要多次数据库扫描,并且没有充分利用加权因子与最小支持度相结合的优势,产生大量的无价值最大频繁模式候选集,针对上述问题,构造了一个新的数据存储结构MWS-tree(Maximal Weight Streams tree),通过利用最大加权值MW(Maximal Weight)为修剪条件,较大地减少了最大频繁模式的搜索范围;同时构建包含支持度索引信息的数组WMFP-array(Weighted Maximal Frequent Patterns array),通过此数组的支持度索引信息来减少对数据库扫描的次数,并以单一路径与数据项加权支持度相结合,减少遍历树结构的次数。3.在MWS-tree基础上,提出了最大加权数据流算法MWS(Maximal Weight Streams),算法利用数据项的权重信息WI(Weight information)和最小支持度阀值δ进行最大频繁模式的挖掘,并对挖出的频繁模式进行子集检查操作,将最后结果存储于最大频繁模式数据结构WMFP-tree(Weighted Maximal Frequent Patterns tree)中,最大限度地减少了不必要的挖掘操作。最后将算法MWS与传统算法IWFP以及其改进算法IWFP*进行对比,验证了算法MWS在运行时间和空间占用大小等性能上的优越性。
其他文献
随着虚拟化技术大量应用于云计算与大数据领域,数据中心中的虚拟机数量急剧增加。虚拟机热迁移是减少服务器管理和维护花费、提高资源利用率、实现绿色计算的关键技术。本文围
随着Web2.0技术的迅猛发展,互联网已经不仅仅是一个信息获取途径,更重要的,它已成为人们发布信息的平台。微博服务,作为一个新兴的互联网应用,受到用户的追捧。由于用户的广泛参与
随着网上购物的日益盛行,推荐系统成为提高电子商务企业产品销售量的商业工具,也是许多用户越来越重要的辅助决策工具。互联网为用户开放了大量的产品和广告,从众多的产品中做出
随着计算机软件与硬件的飞速发展,图像处理技术在社会的诸多领域得到广泛的应用。对光栅点阵图像进行分析、识别并重建其中图形对象的图像矢量化技术也在诸如工程图纸、地图等
人脸识别在电子商务、视频监控、门禁系统等方面具有广阔的应用前景。近几十年来,已经出现了很多经典的人脸识别方法。大部分经典算法都能够在多样本条件下取得不错的识别效果
随着Web服务研究的不断深入和大量稳定易用的Web服务的广泛应用,如何从众多的服务中高效地发现满足需求的Web服务是一个需要解决的问题。传统的基于UDDI和WSDL标准的Web服务发
互联网和信息技术的飞速发展使我们进入了“信息经济”时代。互联网的用户的规模不断增大,互联网服务对于网络带宽与传输速度的需求不断增加。此外,互联网应用以及用户的多样性
组合编码的计算量非常巨大,编码过程非常耗时,本文在理论研究的基础上,进一步探讨了组合编码并行技术,以期缩短计算时间。在理论研究方面,本文从通用组合编码的性质出发,对通用组合
互联网技术的快速发展所产生的海量信息易造成信息过载问题,导致人们无法从这些海量信息中快速找到所需的信息。解决信息过载问题以帮助人们快速获得所需信息已引起研究者的广
数据可视化应用于金融领域,把晦涩冗杂的数据转变为直观的二维三维可视化结果,有助于用户发现和分析金融数据背后的逻辑,迅速做出准确判断和决策。因此研究如何将可视化技术更好