基于MapReduce的大数据连接算法的设计与优化

被引量 : 0次 | 上传用户:jeanndy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的广泛普及,以博客、社交网络等为代表的新型应用得到了广泛使用,同时伴随着云计算等技术的飞速发展,互联网中的数据正以前所未有的速度增长和积累,大数据已经走入我们的生活。2004年Google提出的MapReduce并行编程环境,已经在大数据处理领域得到了广泛的应用。Yahoo!, Facebook, Amazon等大型互联网公司都纷纷应用MapReduce来处理大数据相关问题,同时,学术界也对MapReduce的相关算法做出了巨大贡献,有效地推动了MapReduce的发展。本文在深入研究和总结相关领域已有成果的基础上,围绕基于MapReduce的数据连接算法效率优化问题,主要开展了以下的研究工作:首先,本文提出了基于MapReduce的Maxdiff直方图的高效建立算法,包括准确算法和近似算法。Maxdiff直方图可以准确地评估数据集内的数据分布情况,例如可以提供数据倾斜的情况或者数据集之间连接属性的连接选择率等重要信息,为后文连接算法的优化做了一个基础工作。其次,本文提出了基于BloomFilter的等值连接算法,核心思想是利用BloomFilter减少map和reduce之间网络传输量从而提高等值连接算法的效率。为此,首先提出了基于MapReduce的BloomFilter高效建立算法;其次提出了基于BloomFilter的等值连接算法,包括两表等值连接和多表等值连接;最后基于磁盘I/O和网络I/O建立了等值连接算法代价模型,用以选择基于MapReduce的最优等值连接效率方案。再次,本文提出了针对数据倾斜的两表等值连接算法和多表等值连接算法。针对两表等值连接,优化了数据集中的一个或者几个数据出现过多时的连接算法效率。对于多表等值连接,采用基于值域分区(range partition)的方法,优化了用一轮MapReduce任务完成数据倾斜的多表连接算法效率。最后,本文提出了基于MapReduce的多表任意连接算法。首先提出了用一轮MapReduce来完成多表任意连接算法(SEJ),核心思想是利用拉格朗日乘法来最优化网络传输量,同时采用随机化方法保证reduce端的负载均衡;然后基于算法SEJ和多表连接算法的代价模型,提出了一个动态规划算法生成基于MapReduce的多表任意连接的最优化连接方案。本文从基于MapReduce的大数据连接算法效率优化问题出发,围绕着等值连接算法效率优化,数据倾斜的连接算法效率优化和θ连接算法效率优化问题进行研究,提出的算法能够有效地提升程序的执行效率,同时为后续的的研究工作给予借鉴和参考。
其他文献
随着企业需求的发展和变化,软件系统的复杂度越来越高,传统的软件开发方法开始面临以下几个问题:1)无法满足和预测需求的变化;2)生产力低下及软件可维护性差问题;3)对软件开发成本
随着汽车工业的迅速发展,全球汽车保有量大幅增加。汽车在经济领域以及人类生活中已经发挥着巨大的作用,并以越来越大的影响力改变人类的生活与工作,但随着全球汽车保有量的高速
在过去的几十年里,集成电路的发展遵守摩尔定律,即在保证性能提高以及平均每个晶体管成本降低的前提下,每12到18个月特征尺寸按比例减小。这些制备要求导致集成电路的复杂性日益
高速公路交通事故频发,对我国人民的生命、财产安全造成损失。高速公路交通事故多会引起火灾,事故具有危害性及损失大、火势蔓延快等特点。对事故原因进行分析,与车辆超速及
研究了晚香梨的贮藏特性.结果表明,晚香梨贮藏期间硬度下降缓慢,伴随PG活性的上升,可溶性固形物、总糖、可滴定酸度均呈下降趋势。而低温比常温下降缓慢。0~1℃的低温贮藏与135~17℃的常温贮
随着社会的进步和发展,人们的安防意识不断提高,世界各国对公共安全也越来越重视。大量的视频监控系统被用于人们日常生活和生产的各个领域。然而目前这些系统的智能性不高,
公路工程建设需要进行严格的质量监督,但是质量监督的工作出现了一系列缺陷,导致监督效果大打折扣,质量管理的力度和能力下降,一些公路工程的质量问题变得更加突出,因此为了
农户小额贷款作为邮储银行内蒙分行支农服务功能的一项重要政策,在支持内蒙古农村经济发展,解决农户贷款难问题,促进农牧民增收,建设社会主义新农村,构建和谐社会等方面都发
以计算机技术和网络技术为代表的信息化时代到来,在社会各界引起了深刻的变化。医学科学也和信息科学逐渐结合,传统医学开始迈向现代化。我国为了适应现代医学的发展,需要及时
<正>龙(Dragon)是许多民族象征学中的一个重要成分,一向是爬虫类形象,有时如长翅的鳄鱼或巨蛇。这象征起源何在?有人把这
期刊