论文部分内容阅读
关联规则是数据挖掘的重要领域之一。利用算法发现的商品强关联性能够产生交叉销售效果,促进企业盈利水平,同时加快库存和分拣等物流业务的运作效率。本文主要研究关联规则算法,通过分析现有算法的优缺点提出改进算法,并应用于物流实际业务,致力于提高企业决策效率。本文研究主要内容与成果:(1)在概述数据挖掘技术前提下,总结出现阶段关联规则算法的缺点:首先,经典Apriori等关联规则算法只能处理布尔值属性,无法有效处理实际数据集中所包含的可量化属性;其次,支持度-置信度指标作为度量框架无法提取支持度较低但强关联的规则,同时可能存在虚假规则。(2)为克服传统算法无法有效处理可量化属性的缺点,提出了一个基于快速聚类法的量化关联规则算法。该算法通过连续型属性布尔化从而有效的处理实际数据集中所包含的连续型属性,扩大了Apriori等传统布尔型关联规则算法的应用场景。实际数据集分析表明,改进算法能有效处理数值型属性,挖掘有效的量化关联规则。(3)为克服传统度量框架无法提取有效关联规则的缺点,提出了一个新型的改进度量框架,以提高评价效果。该度量框架由新相关性Newrelevancy和新互信息New1构成,Newrelevancy可以被用来寻找数据库中的频繁项集,NewI则在此基础上寻找强关联的有效规则。数据分析显示,和传统度量框架相比,新型度量框架能更有效的挖掘出隐藏在交易数据中支持度较低的强关联规则,具有更好的评价效果。(4)为了利用改进算法来改善实际物流业务,在上述基础上,本文在最后结合库存管理策略,提出了基于量化关联规则的改进ABC分类算法。改进算法以h置信度和相关性作为度量框架提取关联规则,以匹配度量化了商品之间的销售促进作用。实际数据集结果显示,改进的ABC分类法和传统算法在商品分类结果上存在较大的差异,但是改进算法的结果更能体现商品重要性,更具有实际应用性。