论文部分内容阅读
面对当今竞争激烈的时代,企业无不采取计算机高新技术来提高效益。利用数据挖掘技术,可以帮助企业获取庞大数据库中隐藏的有用信息,帮助企业决策者作出正确的决策,因此,数据挖掘成为当今相当热门的研究领域,特别是在关联规则方面的探讨尤其如此。通过关联规则可以找出数据库中某些商品项目间彼此的关联性,如消费者的购物习惯等。对于如何才能有效的推导出关联规则,已经有许多的方法相继被提出。但是大部分的算法都是处理单一层次间的关联规则。然而因为商品项目众多、数据不够密集,找出的关联规则数目可能会变的较少,许多隐藏的知识就不能被挖掘出来。多层次关联规则的挖掘技术,是将数据转换成对应的层次化架构模式,再对各层次使用单层次关联规则算法来获得关联规则。以往的单层次算法的做法,容易产生太多的候选项集,因而需要多次访问数据库的操作。数据挖掘处理对象都是大型数据库,反复搜索数据库必将造成输入输出上大量时间的浪费。而夹击搜索算法(Pincer-Search)在搜寻长度较长的频繁集时效率较之传统算法有很大的提高,因此本文利用它的这个特性将之应用于多层次架构中做关联规则挖掘,并和以往多层次关联规则的挖掘所采用的算法做分析并比较其效果,结果发现,夹击搜寻算法的效率要高很多。另外,以往文献中讨论的关联规则均未考虑购买商品的数量及获利性,然而,在商品交易中数量和获得的相应利润是商家非常关心的焦点问题。因此,一个能有效挖掘多层次间数据并包含数量与利润分析的关联规则才能满足企业最大程度上获利的需要。 本论文以作者参与的《重庆市医药公司药品配送与零售系统》中的药品销售数据做研究对象,用夹击搜索算法在其上进行多层次关联规则挖掘,并与传统算法(Apriori)进行了实验结果的对照。实验证明,随着数据量的增加和数据层次的加深,以及层次中类别的增加,夹击搜索算法对多层次Apriori算法的效率优势越来越明显。 另外,论文提出在挖掘出的关联规则中加入数量和利润来进行分析,并在实验中通过具体的操作实现了这一点。论文分析了加入数量和利润的因素来重新解读关联规则的意义。以往的关联规则通常进行的是所谓购物蓝分析,即在一定的可信度和支持度下顾客在购买一种商品后会继续购买另外一种商品的可能性,也就是分析顾客的购物习惯,进而做出诸如搭配销售、调整货柜位置等营销策略。然而,这种分析存在一个缺点,比如在顾客购买第一种商品的利润远远大于他所购买的后一种商品时,则关联规则给出的购物习惯对整个销售所带来的利润提升意义不大。而本文中,对关联规则加入了数量和利润来分析,就会将该类无意义重庆大学硕士学位论文英文摘要的关联规则剔除掉。相反的,在以往的讨论中,由于支持度或可信度低于闭值而不被考虑的关联规则,在加上数量和利润后,有可能变成一个有趣的,有价值的关联规则。例如:如果顾客购买了一个(或多个)利润较低的某种商品后会接着购买与之相关的另外一种利润较高的商品,因为购买利润低的商品会促进较高利润的商品的销售,所以这是一条商家乐于见到的关联规则,因为它对企业总体利润的提升是一个有利的信息。正文中将对加入数量和利润的关联规则进行详细的论述。关键词:数据挖掘,关联规则,多层次关联规则,夹击搜索(Pincer Search)落