基于关系数据库的关联规则挖掘算法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:whhdgcr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,激增的数据背后隐藏着许多潜在的信息,然而,缺乏了对数据进行深层次分析的技术,导致了“数据丰富但知识贫乏”的现象。面对这一挑战,数据挖掘技术应运而生。关联规则挖掘是数据挖掘中的一个重要研究内容,其应用极为广泛。最初的关联挖掘仅限于事务数据库,近年来,关系数据库已得到了广泛的应用,研究在关系数据库中挖掘关联规则的技术具有广阔的发展前景。 目前在关系数据库中挖掘关联规则的常用方法是:先将关系数据库转换为事务数据库,对关系数据库中的量化属性转换为布尔属性,再利用布尔型关联挖掘算法进行挖掘,该方法以较为成熟的布尔型关联挖掘算法为基础,是较好的解决方案。但现有的方法中大多在转换后直接将经典的Apriori算法或其变形应用其中,忽略了关系数据库中的关联规则的自身特点,从而影响了挖掘效率。 基于以上背景,文章深入分析了关系数据库中关联规则的特点,并在Apriori算法思想的基础上,给出了一种基于内存的关联规则挖掘新算法。该算法克服了经典Apriori算法不支持多维关联约束,将多维约束应用于“剪枝”中,降低了候选项集的个数;而且仅需一次数据库扫描,克服了经典Apriori算法多次扫描数据库所造成的I/O开销。作为应用事例,算法应用于安徽科技学院《学生体质健康标准》数据库的挖掘,结果显示它具有快速、有效、易开发等优点。 数据挖掘总是在海量数据上进行,文章就如何将新算法应用于大型数据库的挖掘进行了较深入的探讨,并给出了基于划分思想的应用策略。 关联规则的评价是决定关联挖掘是否成功的关键步骤,大部分关联规则挖掘算法采用最小支持度和最小置信度排除了一些无趣的规则,但仍然会产生一些对用户来说不感兴趣的、甚至是错误的规则。文章最后对关联规则的评价方法进行了较深入的探讨。
其他文献
HS(Harmonized System)目录是一种国际通用的进出口商品分类体系,在国际贸易中得到了广泛应用。目前,HS目录已成为执行各类监管政策和进行进出口统计的基本体系,而HS编码则是海
随着计算机技术的普及和Internet的飞速发展,信息安全问题日益突出,信息系统面临着前所未有的安全挑战和日益增多的威胁。其中,基于缓冲区溢出漏洞的攻击方式在当前和过去的
1993年,C.Barrou等人发表了著名的、具有深远意义的Turbo码论文,自此拉开了对Turbo码研究的序幕。Turbo码具有接近Shannon限的性能,它的出现在编码理论界引起了轰动,成为自信息论
语义Web是下一代Web发展的重要方向,本体(Ontology)是语义Web的核心,然而手工构建本体却非常繁琐而耗时。因此,本体学习(Ontology Learning),或自动与半自动的本体构建,成为研究的
随着计算机网络技术的发展,企业对网络技术的应用也越来越多,局域网安全问题就变得越发重要。由于计算机中的数据都是以文件的形式存储,文件系统安全就成为局域网安全里的一
随着Internet的迅速发展,网络安全问题日益严重,安全威胁事件逐年上升,近年来的增长态势变得尤为迅猛。其中,网络蠕虫由于危害严重、攻击范围大、爆发速度快,己经成为目前互
随着信息技术的发展,电子信息系统的规模将越来越大,系统构成也将越来越复杂。本文以大规模电子信息系统为背景,针对电子信息系统监控中网络故障检测技术进行了研究。在分析了传
人脸检测与识别作为物体检测识别问题的一个特例,长期以来一直备受关注。无论是从实际应用还是从理论研究的角度来看,人脸检测与识别都是一个颇具吸引力的课题。随着社会的发
逻辑学是一门研究思维形式及思维规律的科学,它是人类进行判断,推理的基础,在人工智能的发展过程中发挥了巨大的作用。概率逻辑作为逻辑学的一个分支,它以概率论作为其理论基础,在
随着消费类电子市场的急剧增加,以视频、语音等多媒体处理为代表的实时服务越来越为大众所瞩目。传统的Linux作为分时系统其设计目标专注于吞吐量最大化,而实时能力则不尽人