关联规则候选项支持频度的研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:dfw002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT技术、电子商务及互联网的迅速普及,使得在各个领域中存储了大量的数据信息,这些数据集中包含了很多有用知识,因此如何从大量的数据中发现潜在的,有用的知识,以辅助相应的应用领域显得尤为重要,这正是数据挖掘所要解决的问题。关联规则挖掘作为数据挖掘的一个重要研究分支,其主要研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律与数据间的联系,且其形式简单、易于理解,是从大型数据中提取知识的主要手段,故关联规则挖掘的研究与应用已经得到数据库、人工智能及统计学等领域学者的极大关注,并取得了不少的研究成果。Apriori算法是关联规则挖掘算法中最经典、应用最广泛的方法,尽管其候选产生-检查步骤,及其典型性质“频繁项集的子集为频繁项集,任何非频繁项集不可能为频繁项集的子集”大幅度压缩了候选项集的数目,但随着数据库规模的扩大,由Apriori算法产生的候选项集仍是巨量的而频繁项集在候选项集中所占的比例却如此的小,所以算法的挖掘时间主要浪费在验证巨量候选项集的非频繁性上,有一种喧宾夺主的感觉。而验证候选项集频繁性的决定属性为其在数据库中的支持频度与用户所设置的最小支持频度阈值的比较,若项集的支持频度满足最小支持频度阈值则为频繁项集,否则为非频繁项集。为了减少Apriori算法中过渡候选项集产生的数量,本文通过对候选项集支持频度的研究,总结了五条规律,并将其应用到Apriori算法中以提高候选项集中频繁项集的命中率,这些规律并从理论与大量的试验得到证明。在算法中同时加入了独立支持频度与差值支持频度,以发现本身为频繁项集但由于独立支持频度的存在其父项集为非频繁性的项集。本文主要由三部分组成:第一部分主要介绍了数据挖掘的相关内容,并对一些常用技术作了详细说明与探讨,主要体现在第二章。第二部分说明了关联规则挖掘算法所涉及的定义,同时深入研究了典型关联规则挖掘算法-Apriori算法。第三部分通过对Apriori算法中的候选项集支持频度的深入研究总结了五条规律,并将这五条规律应用到Apriori算法中,通过理论分析与数据库文图加以证明,并通过大量实验验证了加入规律后的算法比直接利用Apriori算法减少了候选项集的数目且在一定程度上提高了算法的效率。
其他文献
纵观当今网络技术的发展趋势,无论是Interne网、广域网、域网, 无线网络,未来都将朝着数字化、智能化、综合化、宽带化和个人化的 方向发展,这就要求网络要有范围越来越广泛的
图形用户界面(Graphics User Interface),简称GUI.80年代以来,计算机的使用者从计算机专家迅速扩大到了广大未受过专门训练的普通用户,由此极大地提高了用户界面在系统设计和
本文的研究内容是工业机器人在高精密装配领域的应用,依托于辽宁省科技创新重大专项“智能型搬运机器人”。目前工业机器人已经在装配领域有了大量的应用,但这些应用任务更多的
对各种运行中设备进行在线状态检测与故障诊断,将事故遏止在萌芽状态,是现代化设备管理的一项重要内容该文主要讨论了基于非线性频谱分析的故障诊断方法及其应用系统设计.基
广义预测控制是80年代以来发展起来的一种新型计算机控制算法,它具有较好的控制性能和鲁棒性.但是一般的广义预测控制算法对于系统的不确定性抑制能力是有限的.为了克服系统
近年来,随着信息技术的飞速发展,我们的计算机系统越来越频繁的参与到人类的生产活动中,在这其中承担了各种各样的任务。随着这一系列的生产活动而产生的是各种各样的数据,如何有
现代企业CIMS系统实施的关键是MES系统,MES系统在企业资源计划ERP层和过程控制系统PCS层中间,起到了承上启下的核心作用,主要负责生产管理和调度执行,完成过程信息与管理信息的双
针对粗糙集理论在智能信息处理和智能控制中的应用问题,该文进行了如下一些深入的研究.不确定性问题是粗糙集和模糊集理论共同的根本性问题,然而两种理论所指"不确定性"的含
随着通信技术与计算机技术的发展,关于控制系统的研究成为了研究的热点之一。在设计网络控制系统时,要充分考虑网络的负载均衡。网络作为一个通信媒介,并不是百分百可靠,网络通道
对于非线性系统的任意逼近性是模糊逻辑系统能够用来辨识复杂工业过程、给出合理控制的理论依据.该文基于一种改进的无监督聚类技术和一类反馈RBF网络提出一种新的自动生成模