基于极值抽样的关联规则新算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：xdz429

【摘要】

：

数据挖掘与知识发现(Data Mining and Knowledge Discovery简称为KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是

【作者】

：

黄志炜

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2006年期

【关键词】

：

数据挖掘数据挖掘关联规则关联规则支持向量机支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘与知识发现(Data Mining and Knowledge Discovery简称为KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘任务一般可以分为两类：描述和预测。其中，描述性挖掘任务主要把握数据库中数据的一般特性或者根据数据的相似性把数据分组；预测性挖掘任务在当前数据上进行推断，以进行预测。关联规则挖掘是数据挖掘领域一个非常重要的技术，它由R.Agrawal等人首先提出以解决事务数据库分析等问题。物质或对象之间普遍存在空间位置和时间序列之间关联。关联规则挖掘就是从大量数据中项集之间发现有趣的关联或相关，从而达到认识事物客观规律的技术方法。随着大量数据不停地收集与存储数据库中挖掘关联规则显得越来越重要。本文在对已有的关联规则挖掘的经典算法进行分析，发现原有算法需要扫描多次数据库，而且必须先给定最小支持度，当最小支持度改变的时候，将会导致重新计算关联规则。因此针对搜索速度方面，本文给出基于分类搜索的快速关联规则算法，该算法通过对事务数据进行逻辑分类处理，直接产生满足最小支持度的候选集和频繁集，使数据库的搜索次数不随数据项集数的增大而增大，控制数据库的搜索次数最多为3次，并杜绝“假项”产生，极大地提高了算法的效率。在针对最小支持度的问题上，本文提出一种新算法。新的算法首先从抽样角度入手，创新的给出关联规则极值抽样理论。该理论预先估计出所有支持度为极值的项目集。然后，以所有极值项目集为样本，结合最小二乘支持向量机回归(leastsquares support vector machine，LSSVR)算法，计算出所有项目集的支持度。同时针对事务集在线更新的问题，在LSSVR算法的基础上结合增量学习和逆学习的算法，提出支持事务集在线更新的回归算法RIO SVR。在算法试验阶段，本文用新算法针对相应数据进行测试，并用关联规则的传统算法对同一批数据进行测试，试验结果表明：基于极值抽样的关联规则新算法可以较好实现关联规则项目集支持度的回归。

其他文献

基于模糊支撑向量机的增量学习算法研究

统计学习理论(Statistical Learning Theory，SLT)是一种基于小样本的机器学习理论。V．Vapni k等人从六十年代开始致力于此方面研究，到九十年代中期，其理论的不断发展和成熟，已基本

学位

统计学习理论统计学习理论支撑向量机支撑向量机最小二乘模糊最小二乘模糊增量学习增量学习

三维复制系统存在正平衡点的完全代数分类

利用二维Lotka-Volterra系统存在正平衡点时奇点的分类条件,再借助于二维Lotka-Volterra系统与三维复制系统的同胚变换,在不考虑时间可逆的条件下,得到三维复制系统存在正平衡点时,其动力学行为的完全代数分类条件及相图.利用这些分类条件,我们验证了一些已知的结果,并且得到一些新的结果.

学位

遗传算法在下料问题中的应用与研究

随着世界经济的快速发展和全球对资源消耗问题的日益重视，对制造行业中的资源优化利用问题的研究显得越来越重要。在制造过程中的优化下料问题便是具有广泛应用的资源优化利用

学位

下料问题下料问题遗传算法遗传算法编码编码遗传算子遗传算子

房地产开发最优时间和最优强度

房地产行业是风险性行业，存在许多不确定性，如何对此类投资项目进行正确评估，是每个开发商所普遍关心的问题。以往，房地产项目评估采用的是传统的决策方法，但其回避不确定因素的特

学位

实物期权实物期权房地产房地产最优时间最优时间最优强度最优强度

基于极值抽样的关联规则新算法研究

其他学术论文