论文部分内容阅读
关联规则挖掘的主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,它是数据挖掘领域中的一个重要研究方向。为了解决现实数据库中每个项目的重要性差异和分配不均匀性,本文设计了一种基于聚类和压缩矩阵(Cluster&Compression Matrix)的加权关联规则算法——CCMW算法。论文的主要内容如下:(1)对数据挖掘技术进行阐述和归纳,重点介绍了聚类分析和关联规则的基本概念、思想及代表算法——K-Means算法和Apriori算法。(2)深入分析了著名的加权关联规则算法——MINWAL(O)算法,并指出了该算法存在的问题。(3)针对加权关联规则算法中权值设置这个难点,提出了基于时间聚类的权值设置方法。在此基础上,运用布尔向量的关系运算思想,设计了一种基于聚类和压缩矩阵的加权关联规则算法——CCMW算法。该算法通过聚类和对相同事务进行计数来压缩矩阵以减小数据库规模,并且只需扫描一次数据库,无需产生候选项集直接生成加权频繁项集。在时间效率上,该算法比MINWAL(O)算法提高了50%以上。(4)在原有的超市管理系统中,运用CCMW算法,采用Delphi 7.0作为系统的开发工具,设计了一个数据挖掘系统用于挖掘万佳超市购物篮中的关联规则。该系统包括数据导入、数据预处理、关联规则挖掘和查询与分析等四个模块。数据导入是将管理者感兴趣的数据导入到数据仓库中;数据预处理是把导入的数据经过清洗、转换等方法转换为算法所需的数据存储形式;关联规则挖掘可找出满足加权支持度和加权置信度的加权频繁项集,根据挖掘结果为超市商品的摆放提供决策支持;查询与分析可根据条件查询相关信息并对其进行分析,为超市的管理者提供一些营销策略参考。本系统已经投入试运营阶段,并取得了实际的成效,万佳超市的商品月销售总量提高了约10%。