论文部分内容阅读
数据挖掘与知识发现(Data Mining and Knowledge Discovery简称为KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘任务一般可以分为两类:描述和预测。其中,描述性挖掘任务主要把握数据库中数据的一般特性或者根据数据的相似性把数据分组;预测性挖掘任务在当前数据上进行推断,以进行预测。
关联规则挖掘是数据挖掘领域一个非常重要的技术,它由R.Agrawal等人首先提出以解决事务数据库分析等问题。物质或对象之间普遍存在空间位置和时间序列之间关联。关联规则挖掘就是从大量数据中项集之间发现有趣的关联或相关,从而达到认识事物客观规律的技术方法。随着大量数据不停地收集与存储数据库中挖掘关联规则显得越来越重要。
本文在对已有的关联规则挖掘的经典算法进行分析,发现原有算法需要扫描多次数据库,而且必须先给定最小支持度,当最小支持度改变的时候,将会导致重新计算关联规则。因此针对搜索速度方面,本文给出基于分类搜索的快速关联规则算法,该算法通过对事务数据进行逻辑分类处理,直接产生满足最小支持度的候选集和频繁集,使数据库的搜索次数不随数据项集数的增大而增大,控制数据库的搜索次数最多为3次,并杜绝“假项”产生,极大地提高了算法的效率。在针对最小支持度的问题上,本文提出一种新算法。新的算法首先从抽样角度入手,创新的给出关联规则极值抽样理论。该理论预先估计出所有支持度为极值的项目集。然后,以所有极值项目集为样本,结合最小二乘支持向量机回归(leastsquares support vector machine,LSSVR)算法,计算出所有项目集的支持度。同时针对事务集在线更新的问题,在LSSVR算法的基础上结合增量学习和逆学习的算法,提出支持事务集在线更新的回归算法RIO SVR。在算法试验阶段,本文用新算法针对相应数据进行测试,并用关联规则的传统算法对同一批数据进行测试,试验结果表明:基于极值抽样的关联规则新算法可以较好实现关联规则项目集支持度的回归。