基于MapReduce框架的频繁项集挖掘算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:toforworld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,网络中每天都会有TB级以上的数据被产生,单一的主机已经无法负担起海量数据的存储和运算。因此使得大数据、云端运算、数据挖掘等相关议题成为近几年非常热门的议题。而数据挖掘算法更是被广泛应用在不同领域。本论文针对一个在频繁项集挖掘中具代表性的经典算法─Apriori算法运用在巨量数据时可能产生的问题,进行深入研究与探讨,发现以往基于Hadoop提出的Apriori算法会随着数据库的数据量的不断增加及支持度缩小,计算时间将会大量增加。运算中内存的消耗和数据传输的延迟直接影响运算效率。因此,本论文提出了“一个基于MapReduce计算模型的高效率频繁项集挖掘算法”,通过减少低频项集的产生,进而减少内存消耗和数据传输量。为了进一步提高内存利用率和降低数据传输量,基于IOMRA算法提出了优化算法,“基于云计算的Apriori传输效率优化算法”,改进算法中Key/Value对的存储形式,进而减少内存负载量,减少运算中数据传输量,有效提高运算效率。本论文中,通过对原始数据的预处理,再利用交易数据库中每笔交易记录的长度,确定Map端最大合并候选项集的阶次,从而有效减少非高频项集的产生。并且,通过改进Apriori算法中Key/Value对的存储形式,使得Apriori算法在MapReduce的运算中,能够大量减少主机内存的负载量,减少计算机之间的数据传输量,有效地提升运算的效能。
其他文献
专家信息资源由于规模巨大从而在收集过程中存在冗余度高、可信度低且信息描述方式不一致等问题,结果准确性难以保证。因此有效的数据清洗技术成为必须。而清洗中的规范与之
随着视频编解码算法的发展,运用多核处理器对视频编解码器实现并行加速逐渐成为国际视频编解码研究的热点。目前各国学者主要对编码器或者解码器的并行算法独立进行研究,并未
无线传感器网络是由几千至几万个部署在监测区域内的传感器节点组成,该网络是一个多跳的自组织网络系统,并通过无线通信的方式传输数据。传感器节点之间协作的感测、收集、传递
在三维人机交互系统中,实时、稳定的多手指跟踪能让用户像操作真实物体一样去操作虚拟物体,因此能带来非常好的用户体验,而且它能提供手的三维结构信息,因此也能促进手势识别算法
卫星舱布局问题指的是卫星有效载荷在卫星舱体内有限空间进行合理摆放的组合优化问题,是组合数学和运筹学等多个学科的研究热点。卫星舱布局优化问题涉及到多学科、多领域的知
在当今社会中,视频监控在很多场合得到了非常广泛的应用。但是传统的视频监控系统存在海量数据、被动监控、事后监控等众多不足之处,难以处理复杂的监控场景和行为。而智能视频
随着Web2.0时代的到来和云计算的兴起,传统关系数据库在应付Web2.0网站,特别是超大规模和高并发SNS类型的网站时越发显得力不从心,暴露了很多难以克服的问题,NoSQL则由于本身的特
随着社会信息化的高速发展,数据挖掘技术在各领域的重要作用日益凸显出来。分类是数据挖掘领域的一种重要分析手段,而关联规则挖掘是数据挖掘领域的一个重要研究方向,两者作为数
图像超分辨率(Super Resolution,SR)重建技术是指通过提取多幅低分辨率(Low Resolution, LR)图像的图像信息,消除各种影响图像质量的噪声和模糊,重建出质量更清晰、分辨率更
临床诊疗实践是中医学理论研究和诊疗技术创新的源泉。随着近10年医疗信息化建设的进展和临床数据的不断积累,作为诊疗实践主要信息载体的中医临床病历成为中医学和信息学关