基于垂直格式的频繁项集挖掘算法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:siyang2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集的挖掘技术在如今的数据“爆炸”时代,有着越来越重要的地位,它是解决实际问题的一种非常重要的手段。很多学者在最近20年中提出了许多有关挖掘频繁项集的相关算法以用来解决生产中的实际问题。但随着我们的数据量级呈几何倍增增长,我们对频繁项集挖掘算法的执行效率越来越重视。本文首先把有关频繁项集的国内外的研究成果进行了汇总,并对这些研究成果进行了深入的分析。并且着重分析了基于水平数据格式的Apriori算法和FP-growth算法,以及基于垂直数据格式的Eclat算法相关理论、实现流程以及在时间性能和空间性能的具体情况。之后比较了每一个算法的优、缺点,这么做的目的是为了提出性能更高效的算法做好充分的理论储备。本文是在结合这些研究成果的一些优点的基础上,提出了一种基于垂直格式的数据存储形式基础上全新的频繁挖掘算法——FDSL算法(Frequent Deep Search List)。该算法通过把水平数据结构变成一种有序的垂直数据存储结构,并根据这个结构构建了相应地搜索bitmap,通过扫描这个bitmap,构造出一个有序搜索列表,然后利用深度优先查找策略,对这个有序的搜索列表进行深度搜索,这样就可以同时生成候选集以及候选集的支持度。这样在O(n)时间复杂度下利用上述搜索策略就可以生成相应的频繁项集。为了证明本文提出的FDSL算法的性能,本文使用C++编程语言分别实现了Apriori算法、Ecalt算法以及FDSL算法,并选用等长和不等长两种不同的数据格式的数据集对上述三种频繁项集挖掘算法进行了充分的比较并获得了大量实验数据。实验结果表明,本文提出的算法在与传统的基于水平格式的Apriori算法以及垂直格式的Eclat算法在不同的支持度阈值上进行了充分的比较后发现,本文提出的算法(FDSL)在时间性能上相对于其他算法优势还是比较明显。
其他文献
随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。而当今新兴的移动式计算环境不同于传统的分布式计算环境,有着鲜明的特点:移动性、网络通信的非
结合我国高等教育自学考试信息化管理的发展现状和自学考试毕业资格审核的特点,从简化毕业生资格审核的复杂度和降低管理人员工作强度的角度出发,研究和开发出一个能满足未来
近年来核心网带宽迅速增长,接入网的发展却很慢,“最后一公里”仍然是高速局域网和核心网之间的瓶颈。由于成本低廉、接入范围广、支持多种业务接入等优势,以太网无源光网络
报表作为一种信息组织和分析的手段,在企业级的信息管理过程中起着不可或缺的作用,内容和形式也呈现多样性。任何企业都需要制作一定数量和格式的报表。在当前的网络已经成为
企业信息化的投资已经成为当今企业管理的一个严峻问题。一方面,企业信息化规模的增大促使其逐渐成为提高企业价值和发展潜力、提高企业核心竞争能力的有效手段和途径。另一方
广域网下充斥着大量复杂的数据和大量复杂的用户访问行为。传统的网络文件系统一般采用中心化的文件系统服务器,可扩展性差,导致局部出现性能瓶颈。另一方面,广域网中存在大
在多媒体信息量飞速增长的今天,从包含有汉字信息的图片、视频等媒介中,进行汉字笔迹的自动识别,成为目前研究的热点。笔划提取是汉字笔迹识别的一个重要步骤。由于手写汉字
随着(电子商务)办公自动化系统在各大企事业单位的普及应用和发展,企业处理业务的传统模式正面临着极大的挑战。标准业务系统正是在这种情况下,根据质监局标准化的业务需求所
随着搜索引擎用户量大规模的增长,对于搜索引擎服务质量和性能提出了挑战。基于用户搜索行为过程中产生的大量搜索日志,相继展开了优化搜索引擎的多方向研究。其中,查询推荐是其
随着软件系统的不断发展演化,其规模和复杂性逐渐增长,同时软件质量持续降低,开发和维护成本日益加大,长期以来便形成了支撑企业核心业务的遗产系统,针对这种情况便有人提出了代码