基于聚类和压缩矩阵的加权关联规则算法的研究与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:billhe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘的主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,它是数据挖掘领域中的一个重要研究方向。为了解决现实数据库中每个项目的重要性差异和分配不均匀性,本文设计了一种基于聚类和压缩矩阵(Cluster&Compression Matrix)的加权关联规则算法——CCMW算法。论文的主要内容如下:(1)对数据挖掘技术进行阐述和归纳,重点介绍了聚类分析和关联规则的基本概念、思想及代表算法——K-Means算法和Apriori算法。(2)深入分析了著名的加权关联规则算法——MINWAL(O)算法,并指出了该算法存在的问题。(3)针对加权关联规则算法中权值设置这个难点,提出了基于时间聚类的权值设置方法。在此基础上,运用布尔向量的关系运算思想,设计了一种基于聚类和压缩矩阵的加权关联规则算法——CCMW算法。该算法通过聚类和对相同事务进行计数来压缩矩阵以减小数据库规模,并且只需扫描一次数据库,无需产生候选项集直接生成加权频繁项集。在时间效率上,该算法比MINWAL(O)算法提高了50%以上。(4)在原有的超市管理系统中,运用CCMW算法,采用Delphi 7.0作为系统的开发工具,设计了一个数据挖掘系统用于挖掘万佳超市购物篮中的关联规则。该系统包括数据导入、数据预处理、关联规则挖掘和查询与分析等四个模块。数据导入是将管理者感兴趣的数据导入到数据仓库中;数据预处理是把导入的数据经过清洗、转换等方法转换为算法所需的数据存储形式;关联规则挖掘可找出满足加权支持度和加权置信度的加权频繁项集,根据挖掘结果为超市商品的摆放提供决策支持;查询与分析可根据条件查询相关信息并对其进行分析,为超市的管理者提供一些营销策略参考。本系统已经投入试运营阶段,并取得了实际的成效,万佳超市的商品月销售总量提高了约10%。
其他文献
基于自然语言的文本水印是近年来文本水印研究的热点。基于自然语言的文本水印鲁棒性强,安全性好,但在不同程度上改变了文本中的词句,扭曲了文本原义,限制了实际应用。在一些
信息化是现代农业的一个重要特征,信息技术对农业经济的发展越来越重要。高效利用农业资源需要充分了解农作物的生长情况,研究作物生长通常要获取叶片面积等参数。本文基于数
近年来,随着城市居民经济水平、生活水平的快速提高,城市居民的日常出行逐渐向便捷、舒适的交通方式转移,作为城市公共交通系统重要构成部分的出租车可以根据乘客的需要提供灵活
在互联网技术飞速发展和普及过程中存在着巨大的安全隐患,其中木马泛滥异常猖獗,技术上不断更新,因此研究木马检测技术有着重要的意义和价值。本论文在研究当今国内外木马检
无线纳米传感器网络(WNSNs)是传感器网络快速发展的产物。WNSNs的提出进一步拓广了无线传感器网络(WSNs)的应用领域。太赫兹频段作为WNSNs的通信频段,具有极性分子能量吸收等其他
射频识别(Radio Frequency Identification,RFID)技术是一种使用射频信号进行目标物非接触式的自动识别技术。由于RFID技术方便的自动识别过程和标签的低廉成本,其已被广泛地
数字图像的检测分类和内容识别标注是在确定图像类别的基础上,对图像的内容进行识别注释。数字图像有多种类型,如相机图像、CG图像、手绘图像等。随着数码相机的普及、图像软
由于计算机软硬件设备的提高,三维数据获取变得更加容易。已有设备不仅能够获得不同视点下的静态数据,而且可以获得运动物体的三维序列数据。这些数据被广泛应用于各个领域,因此
和普通人相比,百岁老人要比普通人要多活20-30年,大脑作为人体最精密的器官,百岁老人的大脑是否和普通老人也有所不同呢?脑室作为大脑内部最明显的生物标识,其形状变化反映了
随着飞行控制系统的不断发展,其功能越来越复杂,管理的任务越来越多,传统实现方式需要飞行控制系统负责从任务逻辑到底层任务执行控制等全部过程。当任务数量多到一定程度,会导致