寄递大数据分析系统的设计与实现

来源 :中国科学院大学(中国科学院工程管理与信息技术学院) | 被引量 : 2次 | 上传用户：ylycxr

【摘要】

：

随着网络和信息技术的不断发展,网上购物以其方便、快捷的特点受到越来越多用户的青睐,随之带来寄递数据量的激增。海量的寄递数据给企业带来了新的挑战。企业传统的分析系统

【作者】

：

王卫锋

【出处】

：

中国科学院大学(中国科学院工程管理与信息技术学院)

【发表日期】

：

2017年01期

【关键词】

：

寄递数据批量计算流式计算 Hadoop Storm

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络和信息技术的不断发展,网上购物以其方便、快捷的特点受到越来越多用户的青睐,随之带来寄递数据量的激增。海量的寄递数据给企业带来了新的挑战。企业传统的分析系统是将数据存储在关系数据中,这种系统架构在分析海量寄递数据时,会遇到瓶颈。而且,随着数据量的增长,这种系统的扩展代价昂贵。因此,本课题致力于构建一种全新的寄递数据分析系统。本文的研究内容主要包括以下几个方面:(1)学习和研究现有的大数据处理技术。现有的大数据处理技术以批量计算和流式计算两种模式为主导,通过对比分析,本文选取Hadoop和Storm作为本系统分析计算的核心组件。通过对Hadoop、Hive、Flume、Kafka、Storm等开源软件的学习,深入理解大数据处理技术的两种模式。(2)分析现有“安监”系统瓶颈,提出本系统的建设目标。现有“安监”系统的瓶颈,主要集中在一些较为复杂的分析统计功能的性能上。当面单数据的量达到5000(万)条时,业务量运行查询统计、业务量趋势预测等较为复杂查询统计功能的分析时间超过500秒,系统超时。本系统的建设目标是通过构建新分析系统,克服“安监”系统分析瓶颈,并在新系统上实现上述复杂的分析统计功能。(3)给出本系统的架构设计,并根据架构设计对系统进行实现。系统包括数据采集模块、数据预处理模块、数据存储与分析模块和数据展示模块等4个模块。数据采集模块是系统建设的基础。其中“安监”系统采用的是Log4j记录系统日志。寄递大数据分析系统使用Flume日志收集工具将日志文件进行采集,并统一写入HDFS中。针对“安监”系统数据库(关系数据库)中的结构化数据,本系统采用Java程序定期抽取。针对实时采集数据,本系统采用Flume将Log4j日志消息直接推入Kafka中。数据预处理模块是系统重要组部本分之一。本系统通过数据预处理模块将数据处理成“干净”可靠的数据。数据存储和分析模块是系统的核心模块。针对业务需求,本文系统使用Hive、MapReduce和Storm这3种不同的数据分析处理技术对数据进行分析。数据展示模块是将系统结果进行展示。此模块采用了主流J2EE架构和MVC编程模式进行设计和实现,可向用户提供友好的展示界面。(4)搭建系统环境,并对本系统进行测试和验证。本课题搭建了一个20个节点机器的Hadoop集群和5个节点机器节点的Storm集群,对系统进行测试和验证。实验表明,当面单数据的规模为5000(万)时,系统的分析处理时间减少到100秒左右,完全满足设计要求。本课题设计并实现了寄递大数据分析系统,克服传统的关系数据库分析系统对海量寄递数据分析的性能瓶颈问题。并通过实验,证明了该系统在分析海量的寄递数据方面具有明显优势。

其他文献

控制性详细规划课程改革探索

从控制性详细规划课程的作用入手,分析控制性详细规划课程存在的主要问题,提出控制性详细规划课程与其他课程衔接、教学内容和教学方法三个方面的改革对策。

期刊

控制性详细规划课程改革城乡规划专业

高频超声在膝关节积液诊断中的应用

目的探讨高频超声检查在膝关节积液病变诊断中的应用价值。方法应用高频超声研究30位膝关节积液患者41个膝关节超声声像图改变并与X线检查进行比较。结果髌上囊积液39个(95.1

期刊

高频超声膝关节关节积液

存量规划背景下城乡规划组织事权划分与改革

随着土地资源日趋紧张以及人口、环境、交通等一系列矛盾的凸显,我国长期以城市用地增量扩张推动城镇化的发展模式难以为继。"限制增量、盘活存量"成为当前城市土地供应的主

期刊

存量规划行政组织编制组织简政放权

益气养阴消癥通络中药对高糖联合AngⅡ培养的大鼠系膜细胞p38MAPK信号通路的影响

目的:探讨益气养阴消癥通络中药对高糖联合血管紧张素Ⅱ培养的大鼠肾小球系膜细胞(MCs)p38MAPK信号通路的作用。方法:原代培养MCs,第5代时,予高糖、高糖联合血管紧张素Ⅱ刺激

期刊

益气养阴消癥通络中药大鼠肾脏系膜细胞p38MAPK信号通路

最后一公里城市快递的选址及配送线路优化研究

最后一公里城市快递的选址及配送线路优化问题是配送企业的重要问题,如何有效的进行站点选址和选择配送线路,对配送企业降低成本、提高绩效具有重要意义。考虑到企业实际的运

学位

容量约束K-means聚类算法选址工作时间约束CVRP蚁群算法

早期光照对早产儿近视发生的影响

早产儿发生近视性屈光不正的几率较足月儿明显增高,其发生机制尚未完全阐明。而早期光照是早产儿视力发育的重要影响因素,可能参与调控视网膜多种生物活性物质的表达,从而促

期刊

早产儿早期光照近视

人社大数据分析系统设计与实现

在国民经济发展过程中,分析人口迁移、迁徙分析、就业分析是十分重要的。在人口迁移分析、迁徙分析和就业分析中,分析城市人口的情况十分重要,分析城市人口流动(迁移、迁徙)

学位

大数据人口迁徙大学生就业

伊斯兰教伦理对女性修养的提升

伊斯兰教在它长期的发展过程中形成了自己独特的伦理规范和行为要求,这些伦理规范包括政治,经济,社会,自然,教育,服饰文化等等。它们无一不源于伊斯兰教经典《古兰经》和《圣

期刊

伊斯兰教伦理女性修养提升

浅谈成品油运输过程中安全管理机制的构建

本文主要以成品油运输中的安全问题作为全文的切入点,并针对问题从健全和完善安全管理机制、加强安全管理教育与培训两方面探讨了具体解决措施,以期为保障成品油安全运输提供

期刊

成品油运输安全机制构建

论新形势下如何加强党风廉政建设工作

在现今的形势下,加强医院党风廉政建设对社会的发展有重要的意义。基于此,本文在对实际情况进行分析的基础上,探讨加强党风廉政建设工作的措施,期望为廉政建设工作提供借鉴。

期刊

新形势党风廉政建设工作

寄递大数据分析系统的设计与实现

其他学术论文