论文部分内容阅读
公交行业的发展,产生了海量多元的公交IC卡刷卡数据,为行业应用提供快速、准确的站点客流量统计,以及站间公交时速的服务一直是智能公交建设的重点。以往对站点客流量的研究只是针对上下车客流量进行了简单的数据统计;在站点换乘客流量方面,根据站点吸引等方法对站点换乘客流量进行预测,缺乏大量出行记录作为其数据支撑,使得准确度不高;在公交站点区间行程时间及公交站间运达时速等方面的研究,也主要集中于小规模样本数据统计的基础上进行的预测,提出的并行算法在海量数据规模下不具备水平扩展能力。本文在总结已有的相关工作和研究成果的基础上,对海量公交刷卡数据进行数据清洗,并在此基础上,根据数据所具有的时空特性对站点客流量、及站间公交运达时速等方面进行分析研究,并对提出的计算分析方法在Hadoop MapReduce上进行了实现验证,具体的研究工作如下:(1)在公交数据清洗方面,针对具有时空属性的原始公交IC卡数据,提出了在大数据环境下基于时间的聚类、和基于规则的过滤的分析计算方法。基于时间的聚类主要是根据时间一致性原则判断数据时间范围,并根据数据所在城市,即北京市的交通运营情况等,采取基于规则的过滤策略,对异常数据进行修改、剔除,为后续对数据的深入分析提供了数据支持。(2)在公交站点客流量方面,主要针对站点上下车客流量、站点换乘客流量进行分析:在公交站点上下车客流量方面,提出了在大数据环境下的一种公交刷卡时间的聚类方法,通过对每趟次刷卡数据的聚类分析,来判断该辆车上车刷卡数据或下车刷卡数据的归属时间段,在清洗后的数据基础上,通过两次计算得到所有站点在不同时间段的上车刷卡数据量和下车刷卡数据量;在站点换乘客流量方面,通过时空等条件的约束,判断是否有换乘行为,进而得到站点在不同时段的换乘客流量。(3)在反映相邻站间客流运达能力方面,针对相邻站间公交运达时速进行了分析,提出了在大数据环境下对公交车在站点停靠时刻、离站时刻的计算分析方法,在清洗后的公交刷卡数据的基础上,根据上述方法,计算公交车在不同线路方向上的相邻站点区间的行程时间和站间公交运达时速。本文搭建了实验环境,在Hadoop平台上,采用HDFS来存储海量原始公交刷卡数据及中间结果集,采用MapReduce编程模型对大规模数据集进行并行处理,并通过大量实验,对上述计算分析方法在大数据环境下的可行性、准确性及扩展性进行了验证。