基于Spark的大数据分析系统设计与实现

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:haley912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于近几年信息技术的发展,各个行业领域的数据量与日俱增。而且随着移动互联网和物联网的发展,获得数据的渠道也越来越多,包括软件记录、相机、麦克风、无线射频识别等。在许多行业,由于数据量过于庞大,使用传统数据分析方法时出现了效率低下、扩展性弱、维护成本高的问题。在监狱业务中面临着同样的问题,为了应对现在的状况,司法行政执法管理平台一期建设项目组借助大数据技术设计实现了一种基于Spark的大数据分析系统,满足监狱系统的数据分析需求,研究内容与结论如下:首先,参与基于Spark的大数据分析系统的框架设计。系统分为基础层、计算与存储层、服务层、应用层。搭建基础层服务器并安装服务器操作系统,系统均采用CentOS6.4。安装并配置计算与存储层的软件,包括大数据集群环境中用到的Hadoop、Spark、Hive、Sqoop等软件,这些软件均采用CDH5.14.2版本,避免了各软件的不兼容情况。参与应用层接口代码的编写,借助开源的Spark-jobserver框架将编写的业务代码封装成包,方便后期维护和扩展。其次,进行数据转移。由于以往的数据都是存放在传统的关系型数据库中,我们需要将这些数据转移到大数据平台的分布式系统。因此我们编写Sqoop脚本,使用Sqoop工具将数据从关系型数据库MySQL和SQL Server转移到分布式系统HDFS中。最后,进行系统功能测试和性能测试。功能测试方面,编写WordCount测试用例,测试服务层Job Manager能否将Job jar发送到集群并进行计算,通过Spark WEB页面观察测试运行情况,通过HDFSWEB页面观察运行结果。测试结果证明系统能够顺利完成任务。性能测试方面,加入MapReduce作为对照,把国家司法部大数据平台JBXX_ziranxinxi表中的43527586条数据作为查询对象,分别使用Spark和MapReduce进行查询操作,验证本系统的性能。结果显示Spark 比MapReduce快5到8倍。通过功能测试以及性能测试验证了本系统的可行性。
其他文献
我国碳酸盐类岩石分布面积约130万km2,岩溶地貌发育广泛,主要集中在广西、云南和贵州等省(区)。大量相关研究表明,碳酸盐岩覆盖地区土壤普遍具有镉异常,其主要来源于成土母质——碳酸盐岩。本文通过滇黔桂相邻区岩溶区域的野外考察,采集了多个地点不同时代的碳酸盐岩样品,经过对这些碳酸盐岩样品中的镉元素含量进行了分析,初步认识不同区域和不同时代碳酸盐岩中镉含量的特征,并对影响镉含量的因素进行了初步探讨。研
为解决传统的天线与天线罩分离设计所带来的飞机气动性能差,空域覆盖范围小,重量大,系统所占空间大,隐身性能差等问题,本文开展了天线与隐身天线罩一体化设计方法研究。天线与隐身天线罩一体化技术将使天线与天线罩成为一个不可分割的整体,既具有电磁波辐射和接收的能力,又具有电磁隐身特性,同时还具有保护天线不受外部恶劣环境影响的能力。天线与隐身天线罩一体化后通常会涉及到机电两方面性能的要求,即电磁性能和结构刚强
非寿险的准备金评估是保险公司基于历史的赔付数据,对未来赔款进行合理预期估计,对准备金的评估不仅会对公司的偿付能力和经营稳定性造成影响,还与保险公司的盈利能力有直接关联。一般来说,非寿险准备金评估普遍使用确定性方法,只能得到点估计,并且没有考虑实际数据之间的相关性。为此本文在确定性方法的基础上进行随机性方法的改善,并充分考虑单业务线中不同类型数据之间的相依性以及不同业务线数据之间的相依性,增加模型的
随着科技的进步、社会的发展和国家农村城镇化的推进,人们对未来智慧城市的期待和要求越来越高。如何充分发掘和利用遍布全国各个角落的高中低压电力网络线路资源,进一步实现对占据城市20%左右电力资源的LED(light emitting diode)照明系统和各种户外室内大屏LED广告系统的数据传输、实时通信、监控管理和信息推送,已成为现阶段亟待解决的技术难题。在此背景下,本文根据应用场景的需求,在当前普
差分进化算法是演化算法中非常具有潜力的一个分支,作为一种基于种群的算法,它的实现简单直观、空间复杂度低,具备良好的全局搜索能力,比较适合处理大规模问题。差分进化算法可以很好地解决静态问题,同时,在求解动态优化问题方面也表现出不错的性能。尽管如此,动态差分进化算法在理论与应用上仍存在改进之处。针对动态差分进化算法局部搜索能力有待提高、多样性不足、收敛速度慢等问题,本文提出了相应的改进方法,研究内容主
随着铁路系统的不断发展,火车成为了日常生活中不可或缺的出行工具,现代的电力机车取代老式的内燃机车更是为人们提供了一种环保便捷的出行方式,但是不时发生的行车事故极大的威胁着人们的生命和财产安全。受电弓作为电力机车唯一的动力来源,对机车的行车安全至关重要,因此保证受电弓的健康状态,对受电弓进行及时的检测和维修一直是铁路局工作中的重点。受电弓作为机车与接触网之间的桥梁,在行车时升弓,在停车时降弓。随着机
环境危机已经成为人类生存发展面临的主要问题,而环境问题实质上是由于人类的不当行为引起的。消费者在缓解生态环境恶化中扮演着举足轻重的作用:一方面,消费者的消费行为会
钢铁企业具有危险物质众多、生产工艺复杂的特点,所以其带给员工的潜在风险通常都很高。传统的安全评价手段一般是从整体角度对厂区进行分析,而对于厂区内的各个车间及各个工种之间存在的风险差异通常考虑的不够全面,同时保险公司在承保雇主责任险时也只是简单的进行一下费率浮动,因此,最终的风险评价结果和承保费率与厂区的实际情况会存在些许的出入。本文将采用单元划分的方法,分别对每一个小单元存在的风险进行分析,同时将
工业的迅速发展加速社会的进步的同时,也带来了一系列环境污染和能源短缺问题,开发有效的可用于环境治理以及能量转换材料受到世界范围内的关注。作为最具有代表性的金属有机框架,ZIF-8具有丰富的孔结构和大的比表面积,是良好的吸附材料。同时,由于其同时含有有机配体和金属组分,也是合成碳基储能和催化材料合适的前驱体。开发有效可用于大量制备ZIF-8基材料的方法是促进其在实际中应用的关键。本论文基于此开展研究
随着我国经济的不断发展,人们对于出行的需求在增加。近年来,我国建设了大量的交通基础设施,尤其是用来中转旅客的客运枢纽站。客运枢纽站汇集了多种交通方式,具有建筑结构复杂、客流量巨大的特点,存在众多危险因素。一旦发生事故,会造成巨大的人员伤亡,并产生深远的社会影响。公众责任保险在风险转移过程中扮演着重要的角色。因此,对客运枢纽站的风险进行研究具有重要意义。本文首先介绍了国内外的研究现状,总结了客运枢纽