频繁模式发现与多关系贝叶斯方法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:yangmingli1213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库以及其管理系统的广泛应用,数据库中存储的海量数据急剧增大。因此,频繁模式和多关系数据挖掘已成为数据挖掘中快速发展的重要研究课题。现实数据通常存储于由多个关系组成的关系数据库中,传统的频繁模式发现方法只能直接完成单一关系中的模式发现,如果要完成多关系数据的挖掘,会产生操作复杂性和效率低下等难题。   本文在研究原有频繁模式和多关系数据挖掘的基础上,总结频繁模式发现算法和多关系数据库存在的问题和不足,提出了解决效率问题的DS-ECLAT的频繁模式发现算法以及在分类准确度与执行效率之间折中的增强贝叶斯网络多关系分类(TAN-MRC)算法。论文主要创新点如下:   一方面,DS-ECLAT算法使用垂直数据格式挖掘频繁项集,在第一次迭代自连接频繁项集后的每一次迭代都无须扫描整个数据库。使用深度优先搜索最长项技术,依次优先查找某起始项的所有频繁项集。引入回写集(write-back sets)的概念,暂存新的频繁项集的子集,以减少项之间的对比次数。该算法相比ECLAT算法减少了内存的需要,提高了运行效率。   另一方面,现有的TAN方法通过计算互信息来发现属性节点之间的强依赖性,放松了朴素贝叶斯网络的条件独立假设。本文改进的TAN-MRC算法沿用这一优点,假设表之间的属性是相互独立的,致力寻找表内属性的强依赖性,在构建模型时以表为单位建立最大权重生成树,最后加入类结点C生成TAN-MRC模型。   原元组ID传播方法仅允许类标非正即负,TAN-MRC算法扩充了该限制,允许存在多重分类目标。实验证明改进的算法比多关系相互贝叶斯算法Graph-NB时间开销稍大,但放松了朴素贝叶斯分类的条件独立假设,而允许属性结点之间添加新的向量弧,有效地提高了分类的准确率,可较好地应用到多关系数据库中。
其他文献
随着银行卡业务的快速发展,自助设备在银行对外服务中的作用日渐突出。作为自助现金服务的主要渠道,自动柜员机(Automatic Teller Machine,以下简称:ATM)设备能够为客户提供2
随着网络信息的爆炸性增长,人们在网上查询所需信息的难度变得越来越大,搜索引擎的出现在某种程度上缓解了这一矛盾。通用搜索引擎分布在不同领域、不同地方为用户提供服务,
无线移动Ad Hoc网络是由一组带有无线通信收发装置的移动终端节点组成的具有任意性和临时性的无中心、网络拓扑动态、自组网络系统,每个节点既是主机又是路由器。移动Ad Hoc
随着计算机网络技术的日益发展,人们的学习生活和工作方式都发生了巨大变化,计算机在带来了极大便利的同时也存在许多问题。个别不法分子利用网络中的一些安全漏洞进行破坏活
随着Intemet和计算机技术的飞速发展,数据库的应用越来越广泛。数据库作为信息系统的核心组成部分,担负着存储和管理大量数据的任务,同时也面临着各种各样的威胁。虽然数据库系
在无线视频通信领域,随着新的调制技术和新的传输协议的不断发展,无线视频传输变为可能。视频监控融合了这些技术,得到了广泛的应用。本文结合实际应用,给出了一种海上无线视
随着软件行业的飞速发展,人们也越来越认识到传统软件集成的不足。近年来,随着敏捷开发思想的兴起,人们也逐步的认识到持续集成的价值,持续集成是一个软件开发的实践,即团队
基于被动测量的网络性能测度的研究以及服务质量评估模型的设计,对于网络管理员了解网络服务质量的具体情况具有重要的意义。近年来,SLA作为网络服务质量评估的普遍手段,被各大
目前在各类企业信息系统、特别是高校信息系统应用中,经常会遇到一类新的应用需求,用户经常会随机地突然需要查询某些特定信息,这些查询需求给当前信息系统带来了新的挑战。
本硕士论文对SUPANET流量控制技术进行了研究。SUPANET(单物理层用户数据交换平台体系结构)是由四川省网络通信重点实验室提出的下一代网络体系结构,其基本思想是将所有必须