论文部分内容阅读
如今,在大数据时代背景下,智能交通系统将为解决城市交通问题提供有效帮助。公交车、出租车及网约车等的车载GPS系统能够提供较为完整的车辆行驶原始数据集。在这些数据集中包含了车牌号、起始时间、起始经纬度、载客状态、车速、到达时间、目的地经纬度、价格等信息。其中出租车每15秒钟向服务器推送一条GPS记录,一个城市每天的车辆记录大约1200万条,数据集大小为500GB左右;网约车和公交车每天同样都有几百万条数据集。对此,本文对于城市公交站点位置与现实中居民外出需求不匹配、网约车及出租车载客率不高、交通拥堵等问题,旨在通过在车辆车载原始GPS数据分析,分析数据背后城市市民出行模式及车辆行驶规律,发掘潜在的城市公交站点选址位置,最大限度的覆盖地理区域同时兼顾上车人群,进而来解决居民乘车资源分配不均状况,提高公交车辆运载效率,改善城市市民的出行体验。本文以杭州市为例,基于包括共享单车、网约车、地铁及公交在内的多模式的交通大数据,进行了以下工作:(1)对各类车载GPS数据的清理与存储:对原始交通数据进行清理、重构。车辆原始的GPS记录中包含多维属性,如起始时间、车牌、起始经纬度、速度、价格、车辆状态、终止点经纬度、到达时间等。同时原始数据中存在时间错误错误、重点信息缺失、重复等问题,需要采用平均值等方法修补缺失数据,剔除时间信息错误和重复数据。(2)基于四叉树的交通小区划分与优化:基于车辆GPS数据记录,根据四叉树的结构,通过设定交通小区流量上限对杭州市的地理空间进行划分,将整个杭州城区划分为多个不同区块,形成交通小区。对于部分区域,过多数量的交通小区极大增加了网格存储难度和系统响应时间,本文从交通小区流量值和区域面积两个维度进行约束,设计优化算法,对初步划分完成的交通小区进行优化合并,提高用户查询探索效率。(3)原始车辆数据OD抽取与流量分析:将原本具有多维属性的GPS数据抽取为OD起始点数据,将数据打点地图上配合交通小区作聚类和统计分析,挖掘各交通小区的道路交通流量情况及出行距离分析,使用大数据预测模型对道路交通流量进行预测,发掘公交站点选址的潜在区域。(4)基于以上数据的公交站点选址可视化系统设计:对以上述数据处理结果作可视化分析,借助多种可视化编码方式及图形从不同方面展示数据,找到各交通小区车流量情况,发现城市居民出行模式,设计交互式可视化系统,使用户可以交互的来探索数据,发掘潜在的公交站点位置。