挖掘正相关的频繁项集

来源 :郑州大学 | 被引量 : 0次 | 上传用户:zxy556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的任务是发现大型数据集中隐藏的、预先未知的知识。关联规则的挖掘是数据挖掘研究的重要问题之一。该问题自1993年被R.Agrawal等人提出以来,一直受到广泛关注和重视。通常,关联规则的挖掘分两步: (1) 挖掘所有的频繁项集; (2) 由频繁项集产生强关联规则。其中第一步的时间复杂度远高于第二步。从频繁项集产生关联规则的方法是简单的,但是可能导致无意义的关联规则的产生。 一些研究者注意到这一问题,提出在产生关联规则时利用提升度判断规则前、后件之间的正相关性,进一步过滤掉一些无意义的规则。但是,这种做法仍然存在两个问题:(1)不能减少挖掘频繁项集的时间开销。(2)不能保证规则前件(后件)中的项是正相关的,当规则的前件或后件内部存在负相关的项时,仍然可能产生无意义的关联规则。 针对以上问题,本文基于数学期望,引进正相关的频繁项集的概念,并给出一种挖掘正相关的频繁项集的算法。本文的算法可以直接在FP-树中挖掘正相关的频繁项集,将正相关性的判断推进到了挖掘频繁项集的过程中。这样,不仅可以大幅度地减少产生频繁项集的数量,显著地提高挖掘频繁项集的效率,而且在由频繁项集产生关联规则时,可以有效地避免产生无意义的关联规则。此外,在挖掘频繁项集时,本文的算法还通过提取公共项,进一步降低了递归地构造条件FP-树的时间开销。在UCI机器学习基准数据集上实验表明,本文算法可以大幅度地减少产生频繁项集的数量,显著地提高挖掘频繁项集的效率,具有很好的性能,对于大型、稠密数据集尤其如此。
其他文献
多媒体数据是指文本、图形、图像、声音、视频等多种形式数据的综合,而多媒体数据库则是管理多媒体数据的主要工具。随着信息技术和数字技术的发展,各种新型的媒体数据开始出现
光盘数据通道仿真测试系统,是光盘数据通道硬件功能的软件模拟;同时,系统提供一个纠错性能评测的模拟平台,为新一代多功能光盘(NVD:Next-generation Versatile Disc)技术标准
随着信息技术的发展,图像压缩技术已经成为电视广播、视频监控和多媒体娱乐等应用中最重要的一部分。H.264作为最新的视频压缩编码标准,也是目前图像通信领域研究的热点。网络
随着社会的发展,大型企业往往在地域上比较分散,而在管理上,既要求各部门具有独立的局部控制和分散管理的能力,同时,又要在整个企业内实现对所有部门、子公司的全局控制和统一管理
随着计算机技术的快速发展,各类应用系统中积累的数据不断增长。为了进一步利用数据,从大规模数据中发现某些有规律或有价值的信息,数据挖掘技术应运而生。关联规则挖掘是数据
学位
随着Internet的发展,电子商务已成为当前一种重要的商务方式。在商务活动中,买卖双方在交易时必然会因商品属性的要求不同而产生冲突和争议,这时一般采用谈判方式来达成共识。传
随着计算机技术、宽带网络技术、大容量存储技术以及多媒体技术的飞速发展,以Internet为载体的网络广播日益兴起,这些极大地推动了网络新媒体的迅猛发展。本文在研究了新媒体、
互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告投资,也无形中带动了互联网的发展。在几年前
语义Web通过本体技术为Web资源提供了丰富的可供机器处理的语义信息,使得机器可以利用这些语义元数据进行自动化的信息访问,从而提供一种高质量的新服务。同时,语义Web研究的兴