基于关联规则挖掘的分类算法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:loveni978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的高速发展,数据挖掘技术在各领域的重要作用日益凸显出来。分类是数据挖掘领域的一种重要分析手段,而关联规则挖掘是数据挖掘领域的一个重要研究方向,两者作为数据挖掘中两个高度活跃的研究领域,有着一定的相似性—挖掘关联性强的项目集。由此以来,将这两项重要技术组合在一起,即把关联规则挖掘用于分类任务,便开启了数据分类的新征程—关联分类。关联分类实质上就是基于关联规则的分类,它既反映了知识的应用特点—分类或预测,又体现了知识内在的关联特性。各关联分类方法之间的不同之处主要体现在两个方面:挖掘频繁项集所用的方法和如何分析挖掘出的规则并将其用于分类。本文在分析与比较现有关联分类算法的优势和不足的基础上,提出了一种基于P-Trie树的关联分类算法CARPT。算法使用垂直数据格式来压缩存储原始数据库,在减少数据库扫描次数的同时,方便支持数计数,从而提高算法效率;算法把频繁项集视为字符串,采用P-Trie树来存储频繁信息,然后挖掘分类关联规则,另外,其在P-Trie树构造过程中加入对频繁项类别标签支持数的计数,使其能直接去除不能生成频繁规则的频繁项目,相当于对P-Trie树的预剪枝,可有效减少P-Trie树的节点数目,进而减少挖掘过程的遍历时间。实验结果表明,该算法的分类准确率和算法效率相对CBA和CMAR算法有所提高,算法克服了CMAR算法中存在冗余节点的不足,明显节省了内存空间。因此,该算法是有效可行的。
其他文献
随着经济的发展以及城镇化建设速度的加快,导致城市内流动人口增加,人口密集。引发了城市建设中的交通、社会治安、重点区域防范等城市管理问题,随着国家提出建设“平安城市”项
缓存是弥补CPU与存储系统之间巨大速度差异的有效手段。但受成本和制作工艺限制,缓存与存储系统间的容量差异日益加剧。如何进一步深入挖掘现有缓存系统的潜在性能,是缩短CPU空
云计算在商业和科学研究上的价值已渐渐被社会认可。它可以在搜索引擎、互联网应用技术、大规模数据计算等方面发挥出巨大的能量。Hadoop技术作为云计算技术的开源实现,对云计
专家信息资源由于规模巨大从而在收集过程中存在冗余度高、可信度低且信息描述方式不一致等问题,结果准确性难以保证。因此有效的数据清洗技术成为必须。而清洗中的规范与之
随着视频编解码算法的发展,运用多核处理器对视频编解码器实现并行加速逐渐成为国际视频编解码研究的热点。目前各国学者主要对编码器或者解码器的并行算法独立进行研究,并未
无线传感器网络是由几千至几万个部署在监测区域内的传感器节点组成,该网络是一个多跳的自组织网络系统,并通过无线通信的方式传输数据。传感器节点之间协作的感测、收集、传递
在三维人机交互系统中,实时、稳定的多手指跟踪能让用户像操作真实物体一样去操作虚拟物体,因此能带来非常好的用户体验,而且它能提供手的三维结构信息,因此也能促进手势识别算法
卫星舱布局问题指的是卫星有效载荷在卫星舱体内有限空间进行合理摆放的组合优化问题,是组合数学和运筹学等多个学科的研究热点。卫星舱布局优化问题涉及到多学科、多领域的知
在当今社会中,视频监控在很多场合得到了非常广泛的应用。但是传统的视频监控系统存在海量数据、被动监控、事后监控等众多不足之处,难以处理复杂的监控场景和行为。而智能视频
随着Web2.0时代的到来和云计算的兴起,传统关系数据库在应付Web2.0网站,特别是超大规模和高并发SNS类型的网站时越发显得力不从心,暴露了很多难以克服的问题,NoSQL则由于本身的特