基于逻辑与运算的关联规则挖掘算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:wisdom76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。数据挖掘由一些大型零售机构所面临的“决策支持"问题(decision support problem)所激发。应用条形码技术采集的大量销售数据成为挖掘的基础。通过对这些数据进行数据挖掘我们可以找到对于商业销售及生产极为有效的一些信息(这些信息通过具体的模式得到反映),从而可以提高销售和生产效率,降低成本,取得最大的商业效益,这就是数据挖掘的意义所在。本文描述了数据挖掘的概念、功能、过程以及发现模式的分类。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项集又是挖掘关联规则中的关键问题之一。 关联规则挖掘算法中寻找频繁项集的算法有很多,其中Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法,许多学者也提出了许多改进算法。以前的许多挖掘频繁项集的算法是先生成候选项集,再进行检验,然而候选项集产生的代价是非常高的,尤其是存在大量长模式的时候。本文主要在以下几个方面对基于逻辑与运算的关联规则挖掘问题进行了研究。 第一是研究了频繁项集支持矩阵的设计和构造过程以及多种改进算法,并分析了基于逻辑与运算进行频繁项集挖掘的可行性和完整性,然后提出了基于逻辑与运算的快速挖掘频繁模式的挖掘算法FIMA(Frequent Itemset Mining Algorithm)。该算法不需要生成频繁候选项集,并且只需要扫描事务数据库一次。利用矩阵存储频繁项集比利用图存储实现起来更容易,占用的存储空间也小的多。试验结果表明该算法比同样基于逻辑与运算的DLG算法挖掘频繁项集的效率更高。 第二是研究了挖掘有效且无冗余的关联规则的问题。传统算法在生成关联规则时,或者生成关联规则的效率很低,或者生成的关联规则之间存在着大量的冗余,或者挖掘出的关联规则的支持度和置信度都很高,但却是无趣的,甚至是虚假的规则,且不能产生带有否定项的规则。本文提出了一种新的算法
其他文献
虚拟化技术为云计算的发展提供了坚实的基础,正被广泛研究与应用。Xen作为一种开源、高效的虚拟化软件,正成为研究热点。Xen中断虚拟化技术是I/O虚拟化技术中重要的部分,对I/O虚
目前,实用的网络体系结构都是层次结构,TCP/IP是目前互联网所使用的主流网络体系。由于最初的TCP/IP协议栈本来就是为了窄带文本数据而开发的,随着全球互联网的蓬勃发展,TCP/
本文对电大远程教育平台进行了系统分析和系统设计,分析平台的组成、工作流程以及各种常见的网络结构,指出当前远程教育平台的缺陷和将对等网络技术运用到平台的优越性,设计出新
决策信息系统是处理大量数据以获取有效决策,并应用于各个领域的信息系统模型。决策信息系统中包含的不确定性对决策规则的产生、有效决策的生成具有重大影响。而粗糙集理论作
实时系统是一类重要的计算机应用系统,它经常被使用在对安全性要求极高的操作环境中,因此确保此类系统的正确性至关重要,并且需要我们使用形式化的方法对实时系统进行规范验
网络处理器是当前为加速主干网络节点处理速度而提出的并行体系结构。不同于传统的通用处理器,网络处理器充分的利用线程级的并行提升性能。网络处理器复杂的体系结构和编程模
如何在浩若烟海而又纷繁芜杂的文本信息中获取最有效的信息是信息处理的一大任务。文本自动分类是实现这个任务的重要方法之一。在文本分类过程中,由于同义词、多义词、近义
针对现有医学图像归档与通讯系统的服务器功能单一、用户响应慢、不支持远程访问等缺点,以及磁光盘的优良存储特性,设计并实现了一种新型的基于磁光盘的医学海量图像归档系统
随着网络和通信技术的发展,图像信息安全受到越来越多的重视,大量的图像加密和数字水印方案相继被提出。由于光学信息处理速度快、并行性高的特点,使得在图像加密方法中运用
本文针对并行数据库的查询优化处理领域,提出了一种基于Multi-Agent技术的语义查询模型(SQMAS),并以此模型为基础建立了一种基于Agent的并行数据库语义查询方法,同时为了保证系