论文部分内容阅读
随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,激增的数据背后隐藏着许多潜在的信息,然而,缺乏了对数据进行深层次分析的技术,导致了“数据丰富但知识贫乏”的现象。面对这一挑战,数据挖掘技术应运而生。关联规则挖掘是数据挖掘中的一个重要研究内容,其应用极为广泛。最初的关联挖掘仅限于事务数据库,近年来,关系数据库已得到了广泛的应用,研究在关系数据库中挖掘关联规则的技术具有广阔的发展前景。 目前在关系数据库中挖掘关联规则的常用方法是:先将关系数据库转换为事务数据库,对关系数据库中的量化属性转换为布尔属性,再利用布尔型关联挖掘算法进行挖掘,该方法以较为成熟的布尔型关联挖掘算法为基础,是较好的解决方案。但现有的方法中大多在转换后直接将经典的Apriori算法或其变形应用其中,忽略了关系数据库中的关联规则的自身特点,从而影响了挖掘效率。 基于以上背景,文章深入分析了关系数据库中关联规则的特点,并在Apriori算法思想的基础上,给出了一种基于内存的关联规则挖掘新算法。该算法克服了经典Apriori算法不支持多维关联约束,将多维约束应用于“剪枝”中,降低了候选项集的个数;而且仅需一次数据库扫描,克服了经典Apriori算法多次扫描数据库所造成的I/O开销。作为应用事例,算法应用于安徽科技学院《学生体质健康标准》数据库的挖掘,结果显示它具有快速、有效、易开发等优点。 数据挖掘总是在海量数据上进行,文章就如何将新算法应用于大型数据库的挖掘进行了较深入的探讨,并给出了基于划分思想的应用策略。 关联规则的评价是决定关联挖掘是否成功的关键步骤,大部分关联规则挖掘算法采用最小支持度和最小置信度排除了一些无趣的规则,但仍然会产生一些对用户来说不感兴趣的、甚至是错误的规则。文章最后对关联规则的评价方法进行了较深入的探讨。