基于极值抽样的关联规则新算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xdz429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘与知识发现(Data Mining and Knowledge Discovery简称为KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘任务一般可以分为两类:描述和预测。其中,描述性挖掘任务主要把握数据库中数据的一般特性或者根据数据的相似性把数据分组;预测性挖掘任务在当前数据上进行推断,以进行预测。 关联规则挖掘是数据挖掘领域一个非常重要的技术,它由R.Agrawal等人首先提出以解决事务数据库分析等问题。物质或对象之间普遍存在空间位置和时间序列之间关联。关联规则挖掘就是从大量数据中项集之间发现有趣的关联或相关,从而达到认识事物客观规律的技术方法。随着大量数据不停地收集与存储数据库中挖掘关联规则显得越来越重要。 本文在对已有的关联规则挖掘的经典算法进行分析,发现原有算法需要扫描多次数据库,而且必须先给定最小支持度,当最小支持度改变的时候,将会导致重新计算关联规则。因此针对搜索速度方面,本文给出基于分类搜索的快速关联规则算法,该算法通过对事务数据进行逻辑分类处理,直接产生满足最小支持度的候选集和频繁集,使数据库的搜索次数不随数据项集数的增大而增大,控制数据库的搜索次数最多为3次,并杜绝“假项”产生,极大地提高了算法的效率。在针对最小支持度的问题上,本文提出一种新算法。新的算法首先从抽样角度入手,创新的给出关联规则极值抽样理论。该理论预先估计出所有支持度为极值的项目集。然后,以所有极值项目集为样本,结合最小二乘支持向量机回归(leastsquares support vector machine,LSSVR)算法,计算出所有项目集的支持度。同时针对事务集在线更新的问题,在LSSVR算法的基础上结合增量学习和逆学习的算法,提出支持事务集在线更新的回归算法RIO SVR。在算法试验阶段,本文用新算法针对相应数据进行测试,并用关联规则的传统算法对同一批数据进行测试,试验结果表明:基于极值抽样的关联规则新算法可以较好实现关联规则项目集支持度的回归。
其他文献
统计学习理论(Statistical Learning Theory,SLT)是一种基于小样本的机器学习理论。V.Vapni k等人从六十年代开始致力于此方面研究,到九十年代中期,其理论的不断发展和成熟,已基本
随着信息技术的发展与大数据时代的到来,一直备受关注的大规模优化问题在科学与工程领域中的应用更加成为研究的热点.本论文主要从算法微分、参数选取、非单调非精确Newton方
本文主要研究了单变元微分多项式分解的算法及其分解唯一性问题和单变元差分多项式的分解算法。代数多项式和Ore多项式的分解是函数分解理论和符号计算中的重要课题之一,在方
首届中国西部五金机电博览会于9月1日-3日在成都举办,为协助企业拓展西部大市场,成都奥力焊研行业发展有限责任公司应企业要求,邀请了志在西部开发的15家企业,携手组成了“中
作为一名小学教师,我们肩负着基础教育的负担,如何利用新教材让学生更好地学习,培养学生的创新精神和创造力呢?我认为,在教学中就应该做到充分挖掘教材,更好的去理解教材的编
本文尝试应用动态随机优化模型研究确定给付型养老金计划的资产负债管理问题。第一章首先介绍了设定养老金计划的目的、养老金计划的分类和特点以及养老金计划面临的各类风险
修改作文水平决定着作文水平.若要提高学生作文水平,就得从学生修改作文训练人手,以提高学生修改作文水平为突破口,全面提高学生作文水平.修改作文实际上是对文章草稿作进一
期刊
利用二维Lotka-Volterra系统存在正平衡点时奇点的分类条件,再借助于二维Lotka-Volterra系统与三维复制系统的同胚变换,在不考虑时间可逆的条件下,得到三维复制系统存在正平衡点时,其动力学行为的完全代数分类条件及相图.利用这些分类条件,我们验证了一些已知的结果,并且得到一些新的结果.
学位
随着世界经济的快速发展和全球对资源消耗问题的日益重视,对制造行业中的资源优化利用问题的研究显得越来越重要。在制造过程中的优化下料问题便是具有广泛应用的资源优化利用
房地产行业是风险性行业,存在许多不确定性,如何对此类投资项目进行正确评估,是每个开发商所普遍关心的问题。以往,房地产项目评估采用的是传统的决策方法,但其回避不确定因素的特