基于加权多重最小支持度的挖掘算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户：a1a1b1b1ccddee

【摘要】

：

随着数据流的不断发展和应用,在数据流环境下的数据挖掘已经成为获取信息的主要方式,尤其是最大频繁模式的挖掘已成为当今的研究热点,它能提供决策支持和商业预测,因此在实际

【作者】

：

占美星

【机构】

：

广西大学

【出处】

：

广西大学

【发表日期】

：

2014年期

【关键词】

：

数据挖掘最小支持度最大频繁模式权重因子

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据流的不断发展和应用,在数据流环境下的数据挖掘已经成为获取信息的主要方式,尤其是最大频繁模式的挖掘已成为当今的研究热点,它能提供决策支持和商业预测,因此在实际中有很大应用价值。最小项目支持度MIS(Minimum Item Support)是对数据流中的每个数据项,设置关键属性的支持度,以便对数据项进行修剪后的挖掘；而最大频繁模式MFPs(Maximal Frequent Patterns)是在MIS的基础上挖掘最大频繁模式。现有的最大频繁模式MFPs虽然具有较高的压缩比,但只是考虑了支持度的挖掘条件,而没有区分每个频繁模式的权重,无法反应实际属性信息。因此对MFPs算法进一步扩充和完善是十分有意义的。在分析和总结MFPs的算法优缺点的基础上,本文进一步做了以下的研究工作：1.现有MFPs算法对频繁模式的挖掘过程中,会产生大量的中间集,耗费了大量的时间和空间,并且没有考虑到多重支持度的挖掘条件。针对上述问题,本文构造了数据存储结构CPLMS-tree(Compact Preorder Linked Multiple Supports tree),并提出了能够满足多重最小支持度的频繁模式挖掘算法MSCP-growth(Multiple Support-Conditional Pattern growth):通过数据结构中构建的属性iflag来表示子序列是否为频繁项,mps来表示最小的MIS值,并将上述两个属性值作为修剪条件,通过对存储的频繁数据项设置不同的支持度来挖掘频繁模式,可以较大减少频繁模式候选集产生的数量,快速地获得有价值的频繁模式。最后通过实验将所提算法与传统算法PLWAP-Mine进行比较,验证了MSCP-growth算法在执行时间、频繁模式候选集和频繁模式产生的数量,以及空间占用大小等性能上优于PLWAP-Mine算法。2.在数据流环境下,现有的加权最大频繁模式WMFPs(Weighted Maximal Frequent Patterns)算法,对频繁模式的挖掘需要多次数据库扫描,并且没有充分利用加权因子与最小支持度相结合的优势,产生大量的无价值最大频繁模式候选集,针对上述问题,构造了一个新的数据存储结构MWS-tree(Maximal Weight Streams tree),通过利用最大加权值MW(Maximal Weight)为修剪条件,较大地减少了最大频繁模式的搜索范围；同时构建包含支持度索引信息的数组WMFP-array(Weighted Maximal Frequent Patterns array),通过此数组的支持度索引信息来减少对数据库扫描的次数,并以单一路径与数据项加权支持度相结合,减少遍历树结构的次数。3.在MWS-tree基础上,提出了最大加权数据流算法MWS(Maximal Weight Streams),算法利用数据项的权重信息WI(Weight information)和最小支持度阀值δ进行最大频繁模式的挖掘,并对挖出的频繁模式进行子集检查操作,将最后结果存储于最大频繁模式数据结构WMFP-tree(Weighted Maximal Frequent Patterns tree)中,最大限度地减少了不必要的挖掘操作。最后将算法MWS与传统算法IWFP以及其改进算法IWFP*进行对比,验证了算法MWS在运行时间和空间占用大小等性能上的优越性。

其他文献

面向性能优化的虚拟机热迁移技术研究

随着虚拟化技术大量应用于云计算与大数据领域，数据中心中的虚拟机数量急剧增加。虚拟机热迁移是减少服务器管理和维护花费、提高资源利用率、实现绿色计算的关键技术。本文围

学位

资源调度性能优化虚拟机热迁移技术

基于图排序的微博个性化主题搜索

随着Web2.0技术的迅猛发展，互联网已经不仅仅是一个信息获取途径，更重要的，它已成为人们发布信息的平台。微博服务，作为一个新兴的互联网应用，受到用户的追捧。由于用户的广泛参与

学位

信息搜索字词提取图排序语义空间

结合信任机制和用户偏好的协同过滤推荐算法

随着网上购物的日益盛行，推荐系统成为提高电子商务企业产品销售量的商业工具，也是许多用户越来越重要的辅助决策工具。互联网为用户开放了大量的产品和广告，从众多的产品中做出

学位

主观信任全局声誉用户偏好专家优先模式

基于Diffusion Curve的图像矢量化方法研究

随着计算机软件与硬件的飞速发展，图像处理技术在社会的诸多领域得到广泛的应用。对光栅点阵图像进行分析、识别并重建其中图形对象的图像矢量化技术也在诸如工程图纸、地图等

学位

矢量化颜色扩散泊松方程轮廓重要性

基于单样本的人脸识别算法研究

人脸识别在电子商务、视频监控、门禁系统等方面具有广阔的应用前景。近几十年来，已经出现了很多经典的人脸识别方法。大部分经典算法都能够在多样本条件下取得不错的识别效果

学位

人脸识别单样本图像梯度2DPCAB样条

基于并发协商的Web服务发现模型研究

随着Web服务研究的不断深入和大量稳定易用的Web服务的广泛应用，如何从众多的服务中高效地发现满足需求的Web服务是一个需要解决的问题。传统的基于UDDI和WSDL标准的Web服务发

学位

Web服务UDDI并发协商效用评估

差异化定价在互联网服务和资源配置管理中的应用

互联网和信息技术的飞速发展使我们进入了“信息经济”时代。互联网的用户的规模不断增大，互联网服务对于网络带宽与传输速度的需求不断增加。此外，互联网应用以及用户的多样性

学位

互联网服务资源配置差异化定价市场机制

通用组合编码并行算法研究

组合编码的计算量非常巨大，编码过程非常耗时，本文在理论研究的基础上，进一步探讨了组合编码并行技术，以期缩短计算时间。在理论研究方面，本文从通用组合编码的性质出发，对通用组合

学位

通用组合编码最大序数序数并行计算

自适应用户的Item-based协同过滤算法研究

互联网技术的快速发展所产生的海量信息易造成信息过载问题，导致人们无法从这些海量信息中快速找到所需的信息。解决信息过载问题以帮助人们快速获得所需信息已引起研究者的广

学位

推荐系统协同过滤Item-based自适应用户评分预测

基于Radviz算法的金融数据可视化分析技术研究

数据可视化应用于金融领域，把晦涩冗杂的数据转变为直观的二维三维可视化结果，有助于用户发现和分析金融数据背后的逻辑，迅速做出准确判断和决策。因此研究如何将可视化技术更好

学位

可视化技术Radviz算法Three.JS框架金融数据

基于加权多重最小支持度的挖掘算法研究

其他学术论文