论文部分内容阅读
[摘 要]在常规的数据平台设计中,其数据存储量相对较小,并且存在查询数据时间长等缺点,难以满足现阶段的使用需求,在此情况下,需要建立基于Hadoop云平台的大数据应用系统,以此来提升信息的处理以及存储效率。本文主要探究基于Hadoop平台的大数据应用系统架构设计,通过总体设计、功能设计、联网平台设计以及数据库设计来实现系统的整体功能,从而提升大数据系统的设计质量以及管理需求。
[关键词]Hadoop平台;大数据;应用系统
中图分类号:S996 文献标识码:A 文章编号:1009-914X(2018)10-0176-01
前言
在传统的卡口信息处理中,其对信息处理的需求相对较低,因而仅仅需要存储数天的数据资料,但是随着社会的发展,人们逐渐提升了对信息的查询速度以及存储量需求[1],在此情况下,传统的数据平台技术已经难以满足使用需求。因而需要通过Hadoop云平台的大数据应用来设计系统,以此来提升数据的存储和查询效率。
1 总体设计方案
在系统的设计与改造过程中,需要通过三个方面的工作来完成,其主要表现在以下几个方面:第一,在系统的设计中,需要对存储系统的硬件进行升级,扩大计算速度以及空间,将硬件设施池化;第二,需要对软件系统进行设计,主要体现在数据库的升级[2],且通过Hadoop技术来确定接口标准,提升系统的稳定行。第三,在系统的设计中,需要对软件设施进行设计,包括数据接收服务器。另外,在卡口的设计中,需要将其与各级子系统进行连接。在卡口的设计中,需要通过云计算联网平台将多个卡口服务器以及数据库连接起来,同时通过服务器将分级卡口接入到平台中,将提升整体的服务质量。
2 平台功能设计
在卡口系统的联网平台功能设计中,其需要实现以下功能,以便保证系统的运行效率。(1)需要对服务器进行升级,增加数据库接口,对各个分级的数据进行整合处理;(2)加入Hadoopbase数据库系统,将各分级系统信息存储到平台中;(3)在平台增加卡口数据服务器,提供查询和检索服务;(4)增加开发工具,实现卡口数据统一授时等功能;(5)实现系统的云计算安全以及服务等相关功能模块。
在系统的功能设计中,第一层属于基础设施资源层,在设计过程中,对传统的平台进行改造,增加计算以及存储服务器,同时扩充存储量,在对系统软件升级的基础上,实现对信息资源的整合,同时通过池化处理,可以为系统的基础资源进行扩充。
系统第二层属于软件资源层,在设计过程中,运用分布式数据局以及Linux技术进行设计,可以实现数据的加载以及存储等功能,通过该平台层,可以将数据存储带分布式数据库,且在该系统中添加存储模块以及查询模块等多个模块,全面的实现系统的总体功能。在系统的管理模块设计中,其包括日志管理系统、对象事务管理以及远程管理等多个模块,通过Hadoop云平台资源配置来实现功能。系統的加载存储模块分为并行数据加载以及ETL等模块,其主要是实现数据并行加载和处理的功能,以此来实现数据的存储。
3 联网平台设计
在联网平台的设计和改造过程中,其主要需要对设施资源层、平台软件资源层以及软件数据资源服务层三个等级进行设计和改造,其具体表现如下:
3.1 平台软件资源层设计
平台软件资源层主要是提供数据并行加载等功能,该层主要分为系统管理、并行加载存储、并行查询、数据字典以及备份恢复等几个模块,在系统的设计中,增加并行加载模块主要是为了实现核心功能,采用Hadoop分布式文件存储系统,通过分布式计算来处理数据,可以实现对分级信息的存储管理。在系统的设计中,需要建立Hadoop分布式文件系统,HDFS是存储的基础,具有较高的吞吐率,NameNode模块具有负责处理读写功能的模块。
3.2 基础设施资源层的设计
在系统的设计过程中,需要对系统的资源层进行设计,在设计过程中,需要对硬件进行升级和设计,增加服务器的数量和存储量,以便增加网络传输质量。在硬件的升级要求中,对于硬件的设计,需要满足存储硬件和服务器的设计需求,在设计过程中,同时存入3个副本来实现冗余,每月硬盘处理空间约为19.2T,而半年预计需要120T存储空间。在硬件升级中,需要通过Hadoop来实现节点数据存储以及执行功能。
在软件升级方面,需要对物理资源、虚拟服务器以及平台系统进行综合升级管理。通过软件升级,可以实现分布式计算,轻松的处理大量的数据,其性能要求如下:(1)可靠性。(2)扩展性。(3)高效性;(4)高容错性。(5)低成本。
3.3 数据资源服务层设计
在平台的设计中,对于关键点数据接口的设计中,需要对服务器以及数据库进行升级,其主要体现在以下两个方面:第一,在原平台的设计汇总,分配数据接收服务器,接收卡口传输的实时数据,并且在接收服务器的设计中,安装规范化数据接口,便于统一整理后存储到数据库中,第二,需要对系统的数据库服务器进行设计升级,在数据库的设计中,需要增加Hbase数据库,其可以为系统提供直接数据服务,并且向各级卡口提供数据服务。总之,对系统数据资源服务层进行设计,可以最大程度的满足系统的设计需求。
4 数据库设计
在设计卡口系统的过程中,需要对数据库进行整体设计,其主要包括以下几个方面:(1)在数据库的设计中,需要对卡口的信息库进行设计,卡口的数据库需要收集分级的相关信息,包括代码、编号、经纬度以及设备编号等,将数据信息进行分类。(2)需要对设备状态库进行设计,记录卡口的工作状态。(3)对后台查询系统进行设计,支持组合维度查询和统计功能;在数据库的性能指标设计中,其同样需要满足如下的需求:(1)在功能设计中,需要保证存储功能,要求支持5亿数据级的信息存储。(2)需要保证运算和查询能力,在设计过程中,要支持每秒500量级的查询请求,支持10000/s的写入速度。(3)在统计能力的设计中,需要提供后台的支持和查询功能,实现速度低于10s。(4)实现扩展性功能,可以实现后续的系统扩展,为信息的数据挖掘技术提供保障。
结语
在卡口系统的设计中,传统的计算机平台已经难以满足信息的存储以及处理需求,因而本文建立在Hadoop云平台的基础上,对系统进行设计改造。通过对硬件系统、软件系统以及数据库的设计改造,建立分布式数据库技术,通过Hadoop分布式平台来实现文件和数据的存储和处理,可以保证系统快速稳定的信息处理效率,进而可以保证大数据平台的合理运用。
参考文献
[1] 樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,05:831-834.
作者简介
作者姓名:朱立出生年月:1970年3月学历:硕士,职称:副教授研究方向籍贯。
[关键词]Hadoop平台;大数据;应用系统
中图分类号:S996 文献标识码:A 文章编号:1009-914X(2018)10-0176-01
前言
在传统的卡口信息处理中,其对信息处理的需求相对较低,因而仅仅需要存储数天的数据资料,但是随着社会的发展,人们逐渐提升了对信息的查询速度以及存储量需求[1],在此情况下,传统的数据平台技术已经难以满足使用需求。因而需要通过Hadoop云平台的大数据应用来设计系统,以此来提升数据的存储和查询效率。
1 总体设计方案
在系统的设计与改造过程中,需要通过三个方面的工作来完成,其主要表现在以下几个方面:第一,在系统的设计中,需要对存储系统的硬件进行升级,扩大计算速度以及空间,将硬件设施池化;第二,需要对软件系统进行设计,主要体现在数据库的升级[2],且通过Hadoop技术来确定接口标准,提升系统的稳定行。第三,在系统的设计中,需要对软件设施进行设计,包括数据接收服务器。另外,在卡口的设计中,需要将其与各级子系统进行连接。在卡口的设计中,需要通过云计算联网平台将多个卡口服务器以及数据库连接起来,同时通过服务器将分级卡口接入到平台中,将提升整体的服务质量。
2 平台功能设计
在卡口系统的联网平台功能设计中,其需要实现以下功能,以便保证系统的运行效率。(1)需要对服务器进行升级,增加数据库接口,对各个分级的数据进行整合处理;(2)加入Hadoopbase数据库系统,将各分级系统信息存储到平台中;(3)在平台增加卡口数据服务器,提供查询和检索服务;(4)增加开发工具,实现卡口数据统一授时等功能;(5)实现系统的云计算安全以及服务等相关功能模块。
在系统的功能设计中,第一层属于基础设施资源层,在设计过程中,对传统的平台进行改造,增加计算以及存储服务器,同时扩充存储量,在对系统软件升级的基础上,实现对信息资源的整合,同时通过池化处理,可以为系统的基础资源进行扩充。
系统第二层属于软件资源层,在设计过程中,运用分布式数据局以及Linux技术进行设计,可以实现数据的加载以及存储等功能,通过该平台层,可以将数据存储带分布式数据库,且在该系统中添加存储模块以及查询模块等多个模块,全面的实现系统的总体功能。在系统的管理模块设计中,其包括日志管理系统、对象事务管理以及远程管理等多个模块,通过Hadoop云平台资源配置来实现功能。系統的加载存储模块分为并行数据加载以及ETL等模块,其主要是实现数据并行加载和处理的功能,以此来实现数据的存储。
3 联网平台设计
在联网平台的设计和改造过程中,其主要需要对设施资源层、平台软件资源层以及软件数据资源服务层三个等级进行设计和改造,其具体表现如下:
3.1 平台软件资源层设计
平台软件资源层主要是提供数据并行加载等功能,该层主要分为系统管理、并行加载存储、并行查询、数据字典以及备份恢复等几个模块,在系统的设计中,增加并行加载模块主要是为了实现核心功能,采用Hadoop分布式文件存储系统,通过分布式计算来处理数据,可以实现对分级信息的存储管理。在系统的设计中,需要建立Hadoop分布式文件系统,HDFS是存储的基础,具有较高的吞吐率,NameNode模块具有负责处理读写功能的模块。
3.2 基础设施资源层的设计
在系统的设计过程中,需要对系统的资源层进行设计,在设计过程中,需要对硬件进行升级和设计,增加服务器的数量和存储量,以便增加网络传输质量。在硬件的升级要求中,对于硬件的设计,需要满足存储硬件和服务器的设计需求,在设计过程中,同时存入3个副本来实现冗余,每月硬盘处理空间约为19.2T,而半年预计需要120T存储空间。在硬件升级中,需要通过Hadoop来实现节点数据存储以及执行功能。
在软件升级方面,需要对物理资源、虚拟服务器以及平台系统进行综合升级管理。通过软件升级,可以实现分布式计算,轻松的处理大量的数据,其性能要求如下:(1)可靠性。(2)扩展性。(3)高效性;(4)高容错性。(5)低成本。
3.3 数据资源服务层设计
在平台的设计中,对于关键点数据接口的设计中,需要对服务器以及数据库进行升级,其主要体现在以下两个方面:第一,在原平台的设计汇总,分配数据接收服务器,接收卡口传输的实时数据,并且在接收服务器的设计中,安装规范化数据接口,便于统一整理后存储到数据库中,第二,需要对系统的数据库服务器进行设计升级,在数据库的设计中,需要增加Hbase数据库,其可以为系统提供直接数据服务,并且向各级卡口提供数据服务。总之,对系统数据资源服务层进行设计,可以最大程度的满足系统的设计需求。
4 数据库设计
在设计卡口系统的过程中,需要对数据库进行整体设计,其主要包括以下几个方面:(1)在数据库的设计中,需要对卡口的信息库进行设计,卡口的数据库需要收集分级的相关信息,包括代码、编号、经纬度以及设备编号等,将数据信息进行分类。(2)需要对设备状态库进行设计,记录卡口的工作状态。(3)对后台查询系统进行设计,支持组合维度查询和统计功能;在数据库的性能指标设计中,其同样需要满足如下的需求:(1)在功能设计中,需要保证存储功能,要求支持5亿数据级的信息存储。(2)需要保证运算和查询能力,在设计过程中,要支持每秒500量级的查询请求,支持10000/s的写入速度。(3)在统计能力的设计中,需要提供后台的支持和查询功能,实现速度低于10s。(4)实现扩展性功能,可以实现后续的系统扩展,为信息的数据挖掘技术提供保障。
结语
在卡口系统的设计中,传统的计算机平台已经难以满足信息的存储以及处理需求,因而本文建立在Hadoop云平台的基础上,对系统进行设计改造。通过对硬件系统、软件系统以及数据库的设计改造,建立分布式数据库技术,通过Hadoop分布式平台来实现文件和数据的存储和处理,可以保证系统快速稳定的信息处理效率,进而可以保证大数据平台的合理运用。
参考文献
[1] 樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,05:831-834.
作者简介
作者姓名:朱立出生年月:1970年3月学历:硕士,职称:副教授研究方向籍贯。