基于MapReduce的并行频繁项集挖掘算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:YSCX0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则一直是数据挖掘领域中一个研究热点,被广泛的应用于各个领域。随着web2.0时代的到来,特别是以用户为主导产生互联网内容的社交网络的兴起,数据积累呈现出指数级的增长趋势。在面对海量的数据集时高效地使用关联规则是数据挖掘的重要任务。本文对FP-Growth算法的并行化进行了研究,在己有PFP算法基础上,设计了一种新的并行FP-Growth算法。之所以要并行化,是因为要在面对大规模数据处理时,传统的FP-Growth算法是基于单机的内存消耗算法,因此会出现内存不足或者执行时间过长等问题。现有的并行FP-Growth算法已经解决了如划分数据库事务集这一问题,可以保证划分后的事务集彼此之间相独立,但单节点在FP-tree挖掘过程中还是存在迭代次数过多,效率低下的问题,并且主节点向子节点划分数据集时也没有考虑负载均衡。因此,实现高效率并且负载均衡的并行FP-Growth算法是本文要解决的问题。本文在PFP这种原有的基于MapReduce的并行FP-Growth算法之上运用剪枝策略,通过合并FP-tree中满足条件的非频繁路径从而减少了其部分分支的迭代次数,加快了挖掘效率。另外,在主节点向子节点分配计算数据集时使用负载均衡策略,首先由Flist进行各频繁项的负载估计,然后通过负载均衡算法将频繁项分组得至Glist。通过这两种策略的结合,本文设计了一种新的并行FP-Growth算法,并设计实验证明该算法相对原算法在执行效率上的提升。本文将并行FP-Growth算法应用在微博好友推荐上,设计了一种基于关联则的微博好友推荐算法。以往的社交网络好友推荐往往是基于用户之间的共同好友,但是微博除了具有社交网络的属性外,更加注重的是新鲜事的传播,因此具有潜在好友关系的用户不仅会关注相同的人,更加会关注相同的事(以用户对微博的转发或者评论体现)。本文将这两点结合,利用新浪微博的开放API接口获取用户之间的关注数据和用户对微博的关注数据,将这里的“关注”看成一条交易,用户看成交易项,所有交易的集合看作交易数据库。在此基础上进行并行FP-Growth算法,提取出产生的频繁二项集,按频度由高到低取前N个用户作为推荐好友,实验表明该算法在推荐的准确率和召回率上优于基于共同好友的Friend-of-friend算法。
其他文献
随着互联网与多媒体技术的飞速发展,视频信息给人们的生活带来了巨大的便利。然而,面对如此庞大的视频数据量,如何有效的组织、存储、检索与浏览视频已成为视频研究领域中的
多重数字图像水印技术使用相同或者不同的密钥,在同一幅图片中多次嵌入水印,其目的是保证版权认证信息的安全。多重数字图像水印较之普通水印更具有强壮性和安全性能,在对数字产
学位
XML已成为网络数据表示和信息交换的标准。随着XML在各个领域的广泛应用,其安全性也更多地受到人们的关注。   本文针对XML安全问题,分析了RSA密钥机制和XML自身的特点,将XML
学位
支持向量机因其坚实的理论基础与优越的学习性能已被广泛运用于大规模数据的学习中,但支持向量机优越性是建立在小样本的基础之上,在大规模样本的学习问题上它却并未表现出优势
互联网时代的到来,标志着我们生活方式的巨大改变。人们通过网络可以获取各种想要的信息。特别是伴随着Web技术由Web1.0向Web2.0逐渐过渡,金融领域信息开始在网络上进行集散,
数据仓库和OLAP联机分析系统提供了一些方法和工具来分析企业信息系统中的数据事务。但是,只有其中20%的信息是可以被OLAP分析系统分析。对于其他的80%的数据,大部分都是文件
粒子群优化算法作为一种新的智能优化算法,由于其收敛速度快、参数设置少,近年来受到众多学者的研究和重视。它常被用于解决大量非线性、不光滑和多峰值的复杂问题优化,现己广泛
“地震成像”领域的巨大进展是推动石油勘探工业的快速发展的主要动力。地震成像系统实现地震勘探结果的成像,便于地震数据解释人员、地质工程师等对地下地质构造、分层信息
人体运动中包含大量的情感信息,是情感识别领域新的研究方向。但是目前基于人体运动进行情感识别的工作基础薄弱,大多是人工判别或者提取一些基本物理运动信息作为特征量进行机
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,搜索引擎的出现为解决这一难题提供了方便。