基本显露模式的挖掘算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:tangtieming1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量的数据中挖掘有潜在价值的信息的技术。分类是数据挖掘中一项非常重要的任务,在政府组织、科学研究、商业等诸多领域具有广泛的应用。统计学、机器学习、神经网络等领域的研究者提出了很多分类算法,这些算法大都适用于小型数据集,基于显露模式(Emerging Patterns,EPs)的分类方法是针对大型数据集的分类提出的。 显露模式是那些从一个数据集到另一个数据集支持度发生显著变化的项集,它对分类是有用的,这是因为它能捕获数据集中不同类之间的差异。第一个基于EPs的分类算法是G.Dong等提出的CAEP算法,此后相继提出了JEP-Classifier、DeEPs等一系列基于EPs的分类算法。在分类时我们发现用于分类的EPs的数量通常很大,不能选用所有的EPs用于分类。Fan和Ramamohanarao提议使用一种特殊的EPs,称作基本显露模式(essential Emerging Pattems,简称eEPs),进行分类,并建立了基于eEP的Bayes分类法,取得了很好的分类效果。 因此,如何高效地挖掘出eEPs是一个很重要的问题。eEPs是那些“最短的”EPs,使用EPs的边界表示,eEPs恰是EPs边界表示的一组下界,因此可以使用G.Dong和Li提出的边界算法来挖掘所有的eEPs。然而,这种方法的效率极低。为挖掘C类上的eEPs,必须首先挖掘C类和非C类上的长模式,然后使用边界算法得到C类上的eEPs。挖掘长模式是一项很耗时的工作,并且采用边界算法产生的eEPs并不包含支持度和增长率信息。为了得到eEPs的支持度和增长率,还需要再次扫描数据集,统计每个eEP的出现频率并计算增长率。 本文的主要工作是提出了一种基于模式树(P-树)的eEPs挖掘新算法eEPMiner。eEPMiner采用模式增长的策略,只需两次扫描事务数据库,就能挖掘出C类上所有的eEPs,并同时得到它们的增长率和支持度。并且在挖掘过程中,模式树不仅存储数据集中所有项的信息,而且支持类的信息。我们不需要附加的空间就可以直接在模式树上挖掘出所有的eEPs。在UCI机器学习数据库的多个数据集上的实验表明,eEPMiner具有很好的性能,其速度比基于边界的算法快得多。
其他文献
  数字图像处理是一门新兴的学科,它广泛地应用于生物医学工程、遥感航天、通信、工业、军事公安等领域,并取得了巨大的经济效益与社会效益。但同时,由于数字图像处理涉及的数
  本文的主要工作是以Web服务为应用背景,研究Web服务集成中的若干关键技术,研究了Web服务集成中的若干关键技术,提出了一种基于agent的Web服务集成框架。  本文构建了一个W
分形理论(Fractal Theory)是图像压缩中使用的一种新理论,它以压缩比高和解码速度快等优点,受到广泛的重视并得到了充分的发展。本文将分形理论和小波变换结合起来,提出一种
随着软件工程和软件设计理论和方法的不断发展,现代软件产品的制作逐渐向自动化发展。这要求使用面向重用的软件工程方法来面向软件系统族进行软件组件的制作,形成特定的软件
如何在分布式环境下实现异构数据的交换,是当前研究的热点问题,虽然己有多种实现跨网络数据交换的技术。但这些技术对运用于松散耦合、地域分布环境均存在这样或那样的问题,共有
  本文主要讨论了一种易于扩展的协议测试环境的设计,以及在此基础上实现的路由协议测试系统,详细阅读与路由协议相关的文档,分析、归纳路由协议的特点;对路由协议一致性测试
本文对Web门户技术的企业应用集成进行了研究。文章分析了中小企业对应用集成的需求,设计并实现了一个基于J2EE技术、Web技术、轻量级的企业门户框架,使开发人员能够在此基础上
近年来,随着人们对消费电子产品的性能需求日益增强,嵌入式处理器也在飞速发展,多核处理器已经问世。但是嵌入式浏览器的排版布局引擎仍然是传统的单线程架构,在多核处理器上没有
Logo作为企业的一种重要标志,在查询带有Logo标志的企业信息时,Logo识别将发挥重要作用。尤其是,随着数字化信息技术的发展,人们可以利用智能手机等移动设备随时随地获取一张
随着计算机和网络信息技术在各个领域的广泛应用,人们获取信息的方式越来越智能化。如何高效地从相关信息中获取重要知识,是当前需要重点研究的关键问题之一。概念格理论的提出