基于位运算的关联规则挖掘算法问题研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:qingfeng44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的快速发展,各类应用系统中积累的数据不断增长。为了进一步利用数据,从大规模数据中发现某些有规律或有价值的信息,数据挖掘技术应运而生。关联规则挖掘是数据挖掘研究领域的重要问题之一,主要用于发现隐藏在数据之间的潜在联系。由于其应用的广泛性,一直是被广泛关注的研究问题。目前,针对关联规则挖掘算法,国内外学者已经取得了大量的研究成果。然而,传统的关联规则挖掘算法仍然存在一些不足:(1)处理数据速度不高,求解支持度过程较慢;(2)在频繁项集挖掘过程中,会产生较多的候选频繁项集,对于大型稠密数据集,将导致内存严重不足。针对以上问题,本文分别以稀疏数据集和稠密数据集作为研究对象,开展相关研究。本文的主要工作及贡献如下:(1)提出一种基于先验位运算的频繁项集挖掘算法。针对支持度求解过程较慢的问题,本文提出一种基于先验位运算的频繁项集挖掘算法。该算法首先将数据转换为垂直数据格式,并利用二进制方式存储到二维数组;其次,使用k-1频繁项集组合成为k-候选项集;接着,对候选项集进行“剪枝”操作;最后,利用深度优先搜索算法确定所有的频繁项集。实验结果表明,该方法可以有效地简化支持度计算,提高算法效率。(2)提出一种基于差集的频繁项集挖掘算法。针对传统频繁项集挖掘算法会产生较多候选中间项集的问题,本文提出了一种基于差集的频繁项集挖掘算法。该算法首先使用位运算方式计算出所有1-项集的支持度;然后,根据2-项集的diffset形式分成若干群,从而获得较高的内存利用率;最后,从不同的分群里面产生k-项集(k>2),该操作可以有效减少判断项集是否频繁的时间。实验结果表明,该算法有效地减少了频繁候选项集的产生数量,提高了内存的使用效率。本文提出的两个算法,分别从简化支持度计算以及提高内存利用率的角度,有效地改善了传统频繁项集挖掘算法的效率。
其他文献
软件质量度量是提高软件质量的有效手段。而越早的获得软件质量的度量,对于提高软件质量越有帮助。在软件的设计阶段,使用传统的软件质量模型,可以获得的度量信息很少,很难有效、
Web 是一种典型的分布式应用架构。Web 应用中的每一次信息交换都要涉及到客户端和服务器端两个层面。随着Web的功能的强大,用户数量的激增以及服务器与客户端问交互的日益频
论文讨论与研究IEEE 802.11 MAC 协议应用于无线Ad Hoe 网络时TCP协议存在的问题。在分析了IEEE 802.11 MAC信道接入协议的机制的基础上,在对几个特殊网络构架通信性能分析的
在计算机和信息技术的带动下,DSP芯片技术得到了迅速发展。它已经在数据处理、工业控制和数据通信等许多领域得到了广泛的应用。视频编解码器是DSP芯片的一大应用领域,而DCT变
近年来,在计算机、TV、Internet、DVD和数字图书馆等应用中涉及到大量的多媒体信息,这些信息一方面需要大量的存储设备,另一方面,如何从众多的多媒体信息中,找到用户需要的多媒体
学位
多媒体数据是指文本、图形、图像、声音、视频等多种形式数据的综合,而多媒体数据库则是管理多媒体数据的主要工具。随着信息技术和数字技术的发展,各种新型的媒体数据开始出现
光盘数据通道仿真测试系统,是光盘数据通道硬件功能的软件模拟;同时,系统提供一个纠错性能评测的模拟平台,为新一代多功能光盘(NVD:Next-generation Versatile Disc)技术标准
随着信息技术的发展,图像压缩技术已经成为电视广播、视频监控和多媒体娱乐等应用中最重要的一部分。H.264作为最新的视频压缩编码标准,也是目前图像通信领域研究的热点。网络
随着社会的发展,大型企业往往在地域上比较分散,而在管理上,既要求各部门具有独立的局部控制和分散管理的能力,同时,又要在整个企业内实现对所有部门、子公司的全局控制和统一管理