关联规则中ECLAT算法的研究与应用

被引量 : 0次 | 上传用户:zhangwz2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的发展、数据管理技术的成功应用、企业内部信息化程度的不断提高,各个应用领域的数据库中都积累了海量的数据。利用数据挖掘技术能够从大规模的数据中获取正确的、有趣的、潜在有价值的知识。而关联规则挖掘则是其中一个重要的研究方法,具有重要的理论价值和广泛的应用前景。当前,关联规则的挖掘受到了相当的关注,现有的关联规则算法多是基于Apriori思想和Fp-growth思想的迭代算法。本文深入分析了频繁项集的挖掘问题,对现有的频繁项集挖掘算法进行了系统的归纳和分类,根据数据库的表示方法主要分为两大类:水平数据表示和垂直数据表示,并针对这两大类的经典代表算法Apriori算法和Fp-growth算法进行分析,指出了他们各自的优缺点。通常采用垂直数据库表示的挖掘算法性能优于水平算法,本文深入研究和分析了采用垂直数据库表示的Eclat算法,并在其基础上提出了改进的算法——DEclat。改进算法将划分思想与Eclat算法相结合,并突出了基于概率的先验约束方法,把数据库中的事务划分成n个非重叠的部分,对每一部分采用Eclat算法思想,希望能减少每次交操作时Tidset的规模,减少交操作时的比较次数;通过基于概率的先验约束,减少产生的局部频繁项集数,提高算法的效率。现有的挖掘含负项目的关联规则算法为数不多,而且多是基于Apriori思想的迭代算法,需要对数据集进行多次扫描,同时生成大量的候选频繁项集。在研究国内外相关学者的研究成果的基础上,本文根据差集垂直数据表示的思想,提出一种利用Diffset差集垂直数据表示来构造负项目的频繁项集挖掘方法,该算法能挖掘出所有符合阈值条件的正负频繁项集,由于算法利用了垂直数据库结构,不需要多次扫描数据库,也不需构造频繁模式树,只需扫描数据库一次,算法的时间效率较同类算法高。
其他文献
<正>成人心脏疾病患者进行风险评估及选择适宜手术时机是一项极具挑战性的工作,传统的评估手段由于仪器设备因素、操作者主观条件等可能出现很大差异。快速诊断的生物标志物
本文运用随机分析方法研究了随机环境中经济增长的若干问题。本文分为两部分,第一部分主要讨论几个随机经济增长模型,第二部分主要讨论经济增长的随机动态优化问题。第二章讨
食品产业集群作为河南省的第一大产业集群,但面临着转型升级的问题。加速产业集群的整体转型与升级的关键就是构建以区域品牌核心的品牌战略。河南省食品产业集群区域品牌建设
目的探讨血液中血红蛋白浓度对动脉瘤性蛛网膜下腔出血(aneurysmal subarachnoid hemorrhage,aSAH)患者术后症状性脑血管痉挛发生的影响。方法回顾性分析218例动脉瘤破裂后行
随着科学技术的发展和生产力水平的提高,远程监控系统被越来越多地应用于各个领域,且要求也越来越高。城市供水监控系统是实时、有效管理城市供水的重要手段,是一种远程监控
最近,香港特区政府为捍卫港元联系汇率,维护香港金融市场的稳定,在股票与期货市场上采取行动,买人股票与股票期货合约,对那些企图以冲击港汇为名,而实际上却旨在期货市场上获
期刊
合作与人的发展已经成为当今世界的时代主题,也是当前社会资本理论所面临的核心问题。社会资本理论指出了社会关系作为一种资源为人带来利益的可能性,并揭示出人在这种利益推
人际敏感性是社会认知研究领域中的一个重要概念,研究者常从人格变量,低自尊倾向和人际知觉特性三种视角进行研究。本文围绕争议的焦点问题进行对比探讨,并对人格视野下的定
行业协会在现代市场经济中扮演着重要的角色,被称为第三方私人治理机制,是市场和政府都无法替代的一支重要力量。对正处于经济体制转型和政府管理体制改革的中国来说,行业协
本文通过对国外微课视频资源的开发和应用文献进行研读,聚焦学习资源和学习环境建构所需的增强实境、自然用户界面、实现语义互联应用、对21世纪学习技能的评价,分别对英国教