论文部分内容阅读
随着我国城市公共交通的快速发展,大量智能化、信息化的技术手段被广泛应用于公共交通领域。诸如IC卡收费系统、公交GPS系统等技术的使用,不仅方便了公交企业的日常运营,也为公交企业采集到大量的数据资源。通过对数据资源的分析与处理,公交企业可以获取到公交客流等信息,为公交运营、管理和规划提供宝贵的决策支持。然而,面对日积月累,逐渐庞大的公交数据,传统的数据处理方法与算法越来越力不从心。为了更好地对公交数据进行挖掘与应用,亟需使用大数据的方法与思路对公交数据进行分析处理。针对上述问题,本文设计了基于Hadoop架构的"公交大数据分析平台",以适应海量公交数据的处理需求,结合大数据思维和实际数据情况,提出大数据环境下的公交客流OD矩阵推导算法以及公交客流数据应用方法。相较于以往研究的理想化、简单化处理,本文算法以IC卡刷卡、公交GPS(进出站)和公交调度数据为基础,充分考虑了实际公交数据所存在的问题,在客流推导过程中对数据进行修正与补全。考虑到以往计算客流指标的数据应用方法过于片面与单薄,本文提出以主题分析的方式综合地挖掘应用公交客流数据。首先,本文介绍了论文相关的背景知识,对研究中所用到的基础理论以及技术概况进行了描述;接着,分析了公交系统数据情况,进行了数据预处理工作,基于对数据的分析与公交业务的需求设计构建了"公交大数据分析平台",使用HDFS,MapReduce,Hive等技术分析处理公交数据;然后,以大数据处理环境为背景,提出基于IC卡刷卡、公交GPS和公交调度数据的公交客流OD矩阵推导算法。分别从乘客上车站点判定、乘客下车站点判定、乘客换乘判定等步骤进行说明;最后,结合公交企业需求,提出公交客流数据的主题挖掘应用方法,以线路站点客流分析、区域客流分析、运量匹配分析三个主题对数据进行了分析应用,并选取实例数据进行说明。