应用于海量数据处理分析的云计算平台搭建研究

来源 :天津科技大学 | 被引量 : 1次 | 上传用户:blameoper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在因特网高速发展、上网人群急剧增长的今天,对于那些提供网络服务的互联网公司来说,每天都会有海量的信息需要处理,用以分析出用户的需求、各种产品的效果等,往往某些数据分析都会有时间上的要求。对于现实中存储空间和处理时间的需求,传统的数据库系统已很难满足。本文的主要目的是构建一个成本较低的分布式海量数据处理系统来存储和处理这些数据。以这个问题作为出发点,本文在分析现有分布式计算和存储等关键技术基础上,结合对Hadoop云计算技术的研究和校园网实际软硬件条件,为满足自身的业务需求,提出了一种基于云计算技术的数据处理模型,并从数据结构设计、系统模块化、程序流程化和编程技术平台等方面研究该模型的开发方法,最后将该模型应用于分布式海量数据搜索引擎。经过以上研究得知,Hadoop云计算平台的可靠性、高效性、可伸缩性满足了分布式搜索引擎的技术需求,因此本文选用Hadoop系统作为该应用系统的分布式计算平台。本文对传统搜索引擎中爬行、索引、搜索过程中的每一步骤进行详细分析,并改进了其功能模块,将非顺序执行的步骤分解为两个子任务:数据计算任务及数据合并任务。同时,应用MapReduce编程思想,把所有数据计算任务都封装到Map函数中,把所有数据合并任务都封装到Reduce函数中。研究工作主要在于将改进的搜索引擎系统部署在廉价计算机构成的Hadoop云计算环境中,使之具有较快的响应速度、较高的可靠性及扩展性。本文的主要特点是将经研究提出的模型与实际应用业务相结合,利用前沿的分布式框架技术较好地满足了项目需求,并将该模型部署到实际分布式环境当中,用实验结果来检验系统的实用价值,比如高效率、低成本、可拓展性和易维护性等。
其他文献
导航系统是一种能够为各种运动体及运载体提供高精度运动参数信息的系统,其强可靠性和高精度性是实现其准确航行的前提,也是发展精确制导技术的基础。常用的惯性导航的优点是
仿壁虎机器人作为四足仿生机器人的一个分支,是特种机器人的研究热点。生物壁虎能够在墙面、天花板等负表面上灵活运动,对运动面的适应能力很强。通过对壁虎身体结构和运动方
随着科学的不断发展和人类的需要,机器人技术已经向遥远的太空发展。由于太空环境非常复杂而危险,人类很难完成预期的任务,例如太空微重力、高真空、强辐射和微小行星体的存在,于
本文主要研究了带有时滞不确定性的负荷频率控制以及电力市场环境下的多区域电力系统的负荷频率控制问题。首先,本文基于网络控制理论,对具有时滞的电力系统模型进行了稳定性分析,利用线性矩阵不等式(LMI)设计得到反馈增益控制器。该方法避免了不考虑时滞所带来的高保守性和以前时滞依赖稳定方法的繁琐步骤,给出了最大时滞上界的求取方法,获得了时变时滞系统的时滞相关稳定性准则。其次,本文推导出了市场环境下电力系统的
加速度计是惯性导航系统的核心元件之一,它用于敏感与载体加速度成比例的加速度信号。加速度计信号采集电路则是将加速度计敏感到的模拟信号转换成数字信号,同时将该数字信号送至FPGA芯片进行信号分析和处理。惯导系统的总体精度取决于加速度计本身的测量精度、加速度计信号采集电路的采集精度以及FPGA芯片内部的数据处理方法。相对于航天和航空、陆用惯性导航系统,船用惯导系统有自身独有的特性,船用惯导系统对加速度计
搜索引擎是目前人们获取资讯、学习知识的重要工具,而查询推荐是搜索引擎中的新兴研究问题之一,其目的是为用户提供更为准确、更合用户意图的查询。   以往的查询推荐算法在
随着人们对海洋资源的不断探索与开发,以及对船舶在海上作业要求的不断提升,使得动力定位技术得到了飞速发展。多艘动力定位船能够通过个体间的协调共同完成复杂的任务,因此对多
遗传算法是在自然界生物进化理论的基础上而总结出来的一种随机优化搜索算法,能够解决各种函数优化问题。其优点在于:首先,编码技术和遗传操作相对比较简单,限制性条件较少;
随着机器人技术发展,视觉轮式机器人的轨迹导引与障碍物识别越来越受到人们的关注。使用前轮控制行进方向,后轮控制车体行进的轮式机器人,在运动模型及控制方法上与真实汽车
汽车发动机产生的废气中包含大量的碳氧、氮氧化合物和没有完全燃烧有害物质,这给大气和生活环境造成了极大污染。为此,国家环保总局专门发布了针对汽车发动机与汽车排气污染