基于Hadoop的分布加权FP-tree算法的研究

被引量 : 0次 | 上传用户:fukuilover123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘(ARM)是数据库知识发现中的一个重要课题。自ARM思想出现以来,为了提高挖掘的性能,研究人员提出了很多ARM算法。但是,随着当今网络的发展,用户数据和知识指数级增长,同时,这些数据的重要程度又存在很大差别,因此,如何在海量数据中挖掘出用户真正需求的关联规则,是关联规则挖掘的一个新的难题。由于数据库中数据重要程度不同时,而传统ARM算法没有考虑数据的权重,因此传统的ARM算法不再满足实际需求。而且在处理大数据集时,原有的串行ARM算法计算量大,I/O资源消耗严重,在内存和计算消耗方面都会遇到瓶颈,无法在海量数据集中挖掘出关联规则。本文在研究了多种串行ARM算法的基础上,提出了一种基于Hadoop的分布加权关联规则挖掘(HWARM: Weighted Association Rule Mining on Hadoop)算法。该算法满足加权向下封闭性,解决了传统ARM算法无法挖掘不同权重数据的问题,使用Hadoop这一分布式计算平台并行化FP-tree算法以突破原有算法处理海量数据挖掘的局限性。实验结果分析表明,该算法可以满足数据权重不同的需求,且在处理大数据集时能有效地提高挖掘的效率。
其他文献
目的分析中医"治未病"在社区服务中的应用效果,并对应用价值进行探讨。方法选取2013年9月至2015年9月期间在本社卫中心的21个站点进行社区卫生服务的居民共900例作为研究对象
装配序列规划是产品设计周期的重要环节。合理的装配序列不仅能减少产品开发时间、节约企业资源,而且能提升产品性能和稳定性。因此,研究产品的装配序列规划具有重要意义。本文
目前,地名管理和使用出现的种种混乱现象,可归昝于地名规划编制的缺位。地名规划是地名学和规划学交叉融合的产物,其与城市规划在规划构成、规划对象和规划层次等方面都有联系,因
在分析全面质量管理局限性的基础上,引入生态质量管理,探究其可持续发展的思想内涵, 论述了质量管理的空间范围扩展到与环境相关联的整体体系中研究的必要性,界定生态质量管
目的 研究Survivin在肾上腺皮质的表达, 并探讨它与cyclin- D1、Ki- 67 在鉴别肾上腺皮质良、恶性肿瘤中的临床意义。方法 用免疫组化方法分析Survivin, cyclin- D1, Ki -6
本文在分析国内外生态环境质量管理的基础上,以可持续发展理论和生态经济学为指导,提出了生态环境质量管理技术模型的总体框架和建模技术路线,详细阐述了构建生态环境质量管
<正>高中生物学不仅知识点多,而且杂,在高三复习过程中,学生往往会顾此失彼,眉毛胡子一把抓,没有重点和系统性,因而复习效果不佳。所以,教师需要引导学生理清思路,从宏观上把
在机械合金化过程中,金属粉末在经历反复破碎和冷焊的同时,部分粉末会粘附在球磨罐罐壁及磨球表面上,经过反复挤压和冷焊后,往往会沉积成一定厚度的涂层。基于这一现象,本文采用行
<正> 崩漏是多种妇科疾病所表现的共有症状,如:功能性子宫出血、女性生殖器炎症、肿痛等所出现的阴道出血,都属崩漏的范畴,为临床所常见。笔者近年来运用加味四物汤治疗崩漏
超声振动辅助混粉电火花表面强化技术是在普通电火花机床上,工具电极辅助超声振动,工作液中混入作为强化相的粉末,通过电火花放电的热效应将工具电极和工件表面的放电点熔化