论文部分内容阅读
随着大数据技术的快速发展,大数据在各领域的应用日益增多,规模不断扩大。大数据应用支持系统开发的需求日益强烈。为了满足这个需求,我们进行了基于Spark的大数据应用开发支持环境的研究开发,其宗旨是以Spark生态环境为基础,提供相关大数据应用软件开发工具,支持用户便捷、高效的使用Spark大数据环境计算资源进行各种大数据应用运行,并方便地管理用户计算程序和各种文档。在研究开发工作中,我们研究了Spark并行计算引擎的运行原理、Spark生态系统的核心技术,提出了基于Spark的大数据应用开发支持环境体系结构、软件架构和网络架构。基于IBM服务器、Ubuntu Linux操作系统、Spark 1.5.2软件,进行了物理集群搭建、Spark及其开发工具部署,搭建了基于Spark的大数据平台。在此基础上,依托Linux/Eclipse/Tomcat/Mysql平台,综合运用Java、Javascript、HTML、Ajax、CSS语言,开发了一套基于Spark的大数据应用开发支持环境。该环境包括门户网站、Spark集群的封装和调用、基于Spark的并行程序开发、部署、运行监视、结果存储、分析和图形化展示、用户反馈等模块;集成了Spark生态系统,包括常用的大数据处理软件。为了实现用户应用程序部署至Spark集群,我们提出了一种基于负载权值的动态权值随机算法,根据Spark集群各节点的CPU、内存等资源和实际负载量等因素,确定用户程序的部署方式,使得用户程序任务在Spark集群服务器的分配平衡、高效,集群的各种资源得以充分利用。目前,基于Spark的大数据应用开发支持环境已经完成测试,并在陕西省网络计算与安全技术重点实验室实际运行。本文详细介绍了上述研究开发工作,包括理论研究、系统分析、设计、编码、测试、部署过程。最后给出了基于Spark的大数据应用开发支持环境的典型运行界面。