论文部分内容阅读
出租车作为一种特殊的公共交通方式,因其快速,方便,舒适和安全的特点而受到越来越多的短途出行者的青睐。但是,随着出租车行业的发展,城市车辆和客流分布不均造成的供需失衡尤为严重。为解决这一问题,构建多因素影响下的出租车出行需求预测模型,使出租车运营公司提前对出租车进行科学合理的调度安排显得尤为重要。本文以2017年4月西安市1万多辆出租车轨迹数据为研究对象。用Python编写的伪分布式处理框架完成了大规模GPS原始数据的处理,包括数据清洗、坐标转换、地图匹配、OD提取等工作,并通过不同参数对比证明了该框架的有效性和便捷性。其次,针对热点区域挖掘问题提出了基于密度场的热点探测模型,相比其他聚类模型,该模型可以根据研究尺度的不同进行参数调整,大大降低了参数选择的困难性。利用该模型并结合统计学方法探讨出租车热点的时空分布特征,研究表明:出租车出行高峰时段与居民出行高峰期略有不同,为早高峰6:00~8:00,午高峰12:00~14:00,晚高峰20:00~22:00;各个时段的出行时间分布均较为分散,大部分集中在5到25分钟,且多以5~10分钟的短途出行为主;在空间分布上,出租车载客热点区域主要分布在交通服务区和城市主干道周围;结合城市功能定位,居民区表现为早高峰上车热点等级高于午、晚高峰;医疗服务区表现为早、午高峰热点等级较高且相同时段的热点中往往工作日的热点等级会高于非工作日的热点等级的特点;大型商业服务区的上车热点等级表现为午、晚高峰较高、早高峰较低的特点,但由于所处位置的不同,其他小型商业服务区的热点等级变化规律与之有着较大的差异。最后,选择两个不同功能区域的出租车出行需求热点作为实验组,并将主要城区的出租车出行需求作为对照组,结合天气、空气质量等因素构建了出租车出行需求影响因素集。分别应用岭回归预测模型、随机森林回归预测模型以及基于这两个模型权重的组合预测模型,预测实验组和对照组中的出租车需求。研究结果表明:模型的性能和研究区域以及评估指标均有关系,从研究区域角度来说,主城区的模型预测效果要好于其他两个研究区域,以拟合优度评价指标为例,三种模型的拟合优度均在0.90以上,而其他两个模型的拟合优度则在0.80左右;从回归模型角度来讲,不同的评价指标选出的最佳模型不尽相同,但随机森林回归预测模型被评为最佳模型的次数最多。