基于Spark的大数据应用开发支持环境研究开发

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:jizhe1983621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的快速发展,大数据在各领域的应用日益增多,规模不断扩大。大数据应用支持系统开发的需求日益强烈。为了满足这个需求,我们进行了基于Spark的大数据应用开发支持环境的研究开发,其宗旨是以Spark生态环境为基础,提供相关大数据应用软件开发工具,支持用户便捷、高效的使用Spark大数据环境计算资源进行各种大数据应用运行,并方便地管理用户计算程序和各种文档。在研究开发工作中,我们研究了Spark并行计算引擎的运行原理、Spark生态系统的核心技术,提出了基于Spark的大数据应用开发支持环境体系结构、软件架构和网络架构。基于IBM服务器、Ubuntu Linux操作系统、Spark 1.5.2软件,进行了物理集群搭建、Spark及其开发工具部署,搭建了基于Spark的大数据平台。在此基础上,依托Linux/Eclipse/Tomcat/Mysql平台,综合运用Java、Javascript、HTML、Ajax、CSS语言,开发了一套基于Spark的大数据应用开发支持环境。该环境包括门户网站、Spark集群的封装和调用、基于Spark的并行程序开发、部署、运行监视、结果存储、分析和图形化展示、用户反馈等模块;集成了Spark生态系统,包括常用的大数据处理软件。为了实现用户应用程序部署至Spark集群,我们提出了一种基于负载权值的动态权值随机算法,根据Spark集群各节点的CPU、内存等资源和实际负载量等因素,确定用户程序的部署方式,使得用户程序任务在Spark集群服务器的分配平衡、高效,集群的各种资源得以充分利用。目前,基于Spark的大数据应用开发支持环境已经完成测试,并在陕西省网络计算与安全技术重点实验室实际运行。本文详细介绍了上述研究开发工作,包括理论研究、系统分析、设计、编码、测试、部署过程。最后给出了基于Spark的大数据应用开发支持环境的典型运行界面。
其他文献
世界范围内的经济发展、社会进步和城市化进程的加快,道路交通与社会经济生活的联系也越来越紧密,随着机动车数量的不断增加,交通堵塞、交通事故、能源浪费、环境污染等问题
目前,智能交通系统是计算机视觉领域的一个重要研究方向和热点。随着计算机视觉的不断发展,智能监控技术也在不断的走向成熟,其中主要包括车辆目标的检测、跟踪、行为理解和车牌
作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进展,但处理大规模开放文本时依然面临巨大的挑
复数阶混沌动力学系统由于复数阶自身的特点,比整数阶和分数阶系统具有更为复杂、丰富的动力学特性,同时还具有和分数阶、整数阶一样的随机性和不可预测性等优点。近几年来,
在生产与生活中经常出现不均衡数据集问题,尤其在许多实际的应用领域更多见,例如诈骗信用卡的检测、信息检索、网络入侵检测、医疗诊断、文本分类及生物信息检测等,其中更为
无线传感器网络是近期发展比较热门的一项新兴技术,被誉为21世纪最有影响的技术之一。它是由大量分布式自组织微型传感器节点组成,用于监测物理环境条件,比如温度、声音、震
为保证计算机系统中的信息机密性,自主访问控制和强制访问控制策略在计算机多级安全系统中得到了广泛的应用。然而,实施了这两种策略的计算机系统仍存在安全隐患,如安全系统
在激烈竞争且多变的市场环境下,企业的管理模式很难固化,当企业要做出一些改动时需要面对巨大的挑战。业务流程执行语言(BPEL)作为面向服务架构(SOA)下服务组合的主要实现技术,
企业中创造价值的基本单元是业务流程。一个业务流程是一组逻辑上关联的任务,并通过处理获得的输入信息产生有价值的输出。控制流连接业务流程中的各个活动并决定流程的执行
认知无线电技术是目前解决频谱资源利用不均衡的一种有效方法,其中,动态频谱分配是实现频谱资源共享的关键技术。本文基于拍卖模型对认知网络中的动态频谱分配问题进行了研究