面向应用模式的Hadoop/Hive架构和性能及应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:shyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,信息化程度的提高,很多企业数据库的数据量已经从TB级达到PB级。将这些静态的海量数据利用起来,从中挖掘出有用的知识能够很大的程度上增强企业的竞争力。  本文的研究以《学科评估信息系统》统计分析模块的需求和应用为基础。当对统计分析进行建模时,多个用户需要反复并发访问Oracle数据库。而学科评估系统数据量越来越大,Oracle由于内存、IO、CPU等资源有限,当处理大数据量的并发请求时响应时间较长,极大的影响了统计分析的效率。  针对以上问题,提出了基于Hadoop/Hive架构的分布式存储和并行计算思想方法。通过对统计分析模块各应用模式进行分析调研,总结出整体汇总、最值、排序、模糊查询、表连接、分组对比六种应用模式;将Hive与传统关系型数据库进行对比并对Hive的数据倾斜、性能调优等关键问题进行研究;在各应用模式下,利用Sqoop将所涉及到的Oracle中的数据表导入到Hive中,编写并执行相应的SQL语句以及HiveQL脚本,统计、对比分析Oracle与Hive的性能,分析Hive在统计分析方面的优势和劣势;最后研究了Hadoop不同节点数以及不同Map Task数对Hive性能的影响。  实验结果表明,在各应用模式下,当数据量或者并发量较小时,Oracle性能要优于Hive;除了排序,当数据量、并发量逐渐增大时,Hive与Oracle的性能差距逐渐缩小,进而优于Oracle。最后,将基于Hadoop/Hive架构的分布式存储与并行计算方案进行实际部署,达到了提高统计分析效率的目的,进一步验证了Hive应用于评估系统统计分析的可行性。
其他文献
随着软件规模的不断扩大,软件质量问题成为制约计算机发展的主要因素之一,因此在近十多年来,以软件测试为中心的软件质量保障技术成为软件生产的重要部分。农业专家系统作为一种
随着网络技术和多媒体技术的飞速发展,如何保护多媒体信息和数字产品安全的问题已经成为世界各国极为关注的重要课题.数字水印技术就是在这个背景下应运而生的,它可以有效地
支持向量机(supportvectormachine,SVMs)已经被广泛地应用于机器学习和模式识别等领域,是目前最常用的一种模式识别方法。然而,当使用支持向量机处理大规模问题时,支持向量机还存
电子商务协议形式化分析是电子商务研究的一个重要方面,电子商务协议是面向电子商务的密码协议,安全的电子商务协议是保证电子商务活动正常开展的基础。进行电子商务协议的形式
随着信息技术的迅速发展,人们对传感器智能化的要求越来越高。一方面,对信息采集精度和处理速度的提高要求传感器具有结构上的动态特性对采集的大量无用或冗余的信息能进一步加
即时通信是互联网中十分普及的一项应用。近年来,点对点技术在即时通信领域的应用推动了即时通信的进一步发展。然而,即时通信在给人们提供快捷方便的通信服务的同时,也带来
网上证券期货交易近年来在中国获得了突飞猛进的发展,它具有方便、及时和可获得全面信息等优点,深受广大股民喜爱。然而,个别投资者的账号被不法分子窃取并通过网上交易方式
目前,数据挖掘各项技术的应用是国内外学术界的研究热点。数据挖掘技术在许多商业应用中都取得了十分理想的效果,但是在林业生产过程中,应用数据挖掘成功的例子还不多见。本论文
随着计算机网络技术、电子通信技术的日益普及和发展,信息安全问题已经成为网络环境下各种应用亟待解决的关键技术问题。生物特征是指与人生理或行为特征自动匹配的标识,与人物
随着多媒体技术、网络和通信技术的飞速发展,人们在日常生活和各行各业中越来越多地用到数字图像信息。然而图像信息巨大的数据量给图像的存储、传输和处理带来了极大的不便,