超市事务数据库中的关联规则的探讨

来源 :考试周刊 | 被引量 : 0次 | 上传用户:wing001019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 现在全球经济发展正在进入信息经济时代,各种形式的信息大量地产生和收集导致了信息爆炸,如何采用基于关联规则的数据挖掘技术发现超市事务数据库中的关联规则是本文所研究和探讨的重点。
  关键词: 数据挖掘 关联规则 超市事务数据库
  
  1.引言
  目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注。我们可以利用数据挖掘技术从海量数据中发现有用信息,帮助商家了解客户以往的需求趋势,并预测未来,从而给商家带来巨大的利润。在数据挖掘领域,采用关联规则在大型事务数据库中进行数据挖掘是一个重要的研究内容。关联规则是美国IBM Almaden Research Center的Rabesh Agrawal等人于1993年首先提出的KDD研究中的一个重要课题。关联规则挖掘的一般对象是事务数据库,这种数据库的主要应用在零售业,比如超级市场的销售管理。关联规则就是发现事务数据库中不同商品(项)(Item,指事务中的内容,比如,面包、牛奶等都是项目)之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。
  2.关联规则描述
  目前关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=|{T|Y,T∈DB}|/|{T|T∪XT。支持度可理解为在DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机取一个记录,该记录支持Y的概率。
  3.发现关联规则的操作步骤
  目前,由于条码技术的发展,顾客在超市中购买商品的信息可以很方便地被存放在数据库中,针对数据库中大量的数据,我们如何发现它们之间存在的关联是本文主要讨论的问题。关联规则的挖掘问题就是在超市事务数据库DB中找出具有用户给定的最小支持度和最小置信度的关联规则。关联规则的挖掘对市场调节和争取顾客方面的应用是极有价值的。因此,有必要采用快速算法从超市事务数据库中挖掘关联规则。由超市事务数据库发现关联规则挖掘可以分以下两步完成:
  (1)找出超市事务数据库DB中所有大于等于用户指定最小支持度的项目集,具有最小支持度的项目集称为频繁项集。
  (2)利用频繁项集生成所期望的关联规则,即这些规则必须满足最小支持度min_supp和最小置信度min_conf。
  事实上,第一步的任务是迅速高效地找出超市事务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法,但从超市事务数据库中产生频繁项集既费时又占用空间,所以说第一步是关联规则挖掘的核心问题,是衡量关联规则挖掘算法的标准。当找到所有的频繁项集后,相应的关联规则将很容易生成,目前大多数的关联规则挖掘算法研究是针对第一步而提出的,本文重点讨论第一个问题。
  4.由超市事务数据库发现关联规则的总体设计
  在现有的不少关联规则发现算法中,最著名的仍然是R.Agrawal本人在他自己的AIS算法基础上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。
  众所周知,对数据库的扫描伴随繁重的磁盘I/O任务,Apriori算法中,扫描次数较多,这样就大大限制了挖掘算法的速度。因此,在实际的应用中,减少对事务数据库的扫描次数,有效地减少数据的吞吐,将会有效提高算法的效率。为了高效率地在超市事务数据库中发现关联规则,本系统在Apriori算法的基础上采用基于划分的算法。该算法只对事务数据库DB扫描两次,大大减少了I/O操作,从而提高了算法的效率。
  通过划分方法进行数据挖掘的过程总体设计包含三部分:
  (1)在服务器端第一次扫描超市事务数据库中的表,按照超市事务数据库中不同项集的数量,以及兼顾客户端计算机硬件配置,对其进行数据分块,分块的大小选择要使得每个分块可以被放入主存。
  (2)在各个客户端计算机上,利用并行技术分别访问服务器上的数据分块,求出各数据分块所对应的局部频繁项集,并将所求局部频繁项集存入服务器的一个指定表中。
  (3)在服务器端,汇总各个分块数据生成的局部频繁项集,第二次扫描超市事务数据库中的总表,最终生成全局频繁项集。
  一旦由超市事务数据库DB中的事务找出频繁项集,由它们产生强关联规则是直截了当的。所谓的强关联规则是指满足最小支持度和最小置信度的规则。
  5.结论
  利用并行处理的思想,划分的数据块分给多个处理机并行计算各数据块的局部频繁项集,然后各分块所求的局部频繁项集汇总到服务器上,再次扫描数据库最终求出全局频繁项集。这种将关联规则挖掘算法与并行处理相结合的方式能更大地提高算法的效率。今后,如何能够更有效地提高关联规则算法执行的效率,怎样设计更有效、更实用的算法,是我们需要进一步思考的问题。
其他文献
摘要:本文先简要介绍了公路桥梁中钻孔灌注桩质量各种检测方法,并主要分析了反射波法的基本原理及影响基桩质量检测波形的因素,以便准确判定灌注桩的质量好坏。  关键字:公路桥梁;钻孔灌注桩;质量检测    随着我国交通基础设施建设的快速发展,钻孔灌注桩作為一种基础形式以其适应性强、成本适中、施工简便等特点仍将被广泛地应用于公路桥梁及其它工程领域。灌注桩能将上部结构荷载传递到深层稳定的土层中,从而大大减少
期刊
【摘要】:本文结合工程实践经验, 分析了桩基优化设计是建筑结构设计的一个重要环节。  【关键词】:桩基础优化设计  1前言  近几年来,由于建筑施工能力及技术水平的不断提高,桩基础在建筑结构领域被广泛采用。并且随着时代的发展桩基的类型不断增多,目前本地区流行的桩型为:预应力混凝土静压管桩;超流态(大流动)混凝土灌注桩;长螺旋钻孔混凝土灌注桩;复合载体夯扩桩;电振动沉管混凝土灌注桩;人工挖孔混凝土灌
期刊
摘 要:加强工程质量监督,既是一个技术问题,又是一个管理问题,我们必须以规范、规程为标准,严格操作、科学管理,用认真的态度控制好每一个环节,只有这样,才能够真正做到“百年大计,质量第一” 混凝土广泛用于各种工程建设项目,是目前用量最大的建筑结构材料。混凝土工程的质量,关系到建筑物及构筑物的结构安全,关系到千家万户的生命财产安全。根据多年的工程质量监督经验,现就混凝土工程中容易出现的质量问题、发生的
期刊
摘 要:本文结合工程实例,根据该工程地质实际情况与方案设计,对该工程基坑边坡施工、土方开挖及降水施工与基坑喷锚加锚杆支护等方案进行了探讨,供同行参考。  关键词:深层搅拌桩;锚喷网;支护技术  1、工程概况  (一)、幸福公馆工程地处登高西路南侧,该工程由龙岩市辉利国房地产有限公司建设,中国建筑上海设计研究院承担设计,由福建岩土工程勘察研究院负责详细勘察,由福建勘察基础工程公司负责施工,由福建安华
期刊
混凝土箱梁因能同时抵抗较大的正、负弯矩,抗扭能力大,较好的整体性和连续性而被广泛采用。多应用于连续梁和悬臂梁等体系的大跨径桥梁。箱梁截面由顶板、底板、腹板等部分组成。顶板和底板是结构承受正、负弯矩的主要部件,腹板主要承受截面剪应力和主拉应力。随着运营时间的增长,混凝土箱梁出现了越来越多的病害,特别是裂缝的日渐增多,严重影响桥梁的安全使用。以下就对混凝土箱梁常见裂缝及形成的原因进行分析和总结。  根
期刊
摘 要: 随着我国经济的发展,国家十分重视公路建设,加大投入,加强管理,取得了较大成绩,公路里程不断增加,通达深度也不断提高。但是,公路网结构仍不够完善,技术等级偏低,整体发展水平还不高,不能完全适应经济发展需要,本文根据实践工作经验阐述了公路路基、 路面及其相关构造物的施工和养护技术问题。  关键词: 公路;施工技术; 养护技术;  1公路施工  1.1 施工准备工作  在公路的施工与养护中,其
期刊
摘要:随着经济的快速发展,城市建设突飞猛进,在建筑工程建设中,钢结构工程也日益受到重视和广泛应用,把握好钢结构工程的施工工艺及做好施工管理是整个工程中十分重要的环节,文章是作者结合某钢结构工程实例,就该工程中的施工工艺及其主桁架的制作、施工和监控等问题进行分析探讨,以供参考!  关键词:钢结构施工工艺 检测 施工管理  1 引言  某工程的结构特点、施工工艺、技术难度和管理要求都引人注目,其中,钢
期刊
摘要:本文就笔者结合多年的工程实践,参考国家最新施工规范,主要对桩基施工中打(沉)桩机械设备的选用和施工方法进行了探讨。  关键词:桩基工程;施工技术;选用标准  前言  随着建筑科技的飞速发展和人们对建筑产品质量要求的日趋提高,对我们从事建筑业的科技人员来说,无疑是一种鞭策,更是一种激励,尤其是对在施工第一线从事建筑工程项目施工的技术人员来说,与其在工程质量事故发生后多方查找原因、研讨并实施事故
期刊
摘要:随着人们的生活水平逐漸提高,建筑电气也在随着时代的进步而不断的发展,所以建筑电气所包含的内容的也就越来越丰富,本文首先根据工程的建筑分布论述了工业区广场的特征,介绍了一下在我们在做广场初步设计的一些做法及心得体会。  关键词:高压 低压照明  1.工程概况  本工程为工业区工业区广场,地下二层,地上五层,建筑面积约22,3619平方米,建筑高度为23.6米,属于一类公共建筑。其中地上面积14
期刊