论文部分内容阅读
交通预测在智能交通系统(ITS)中起到了十分重要的作用。现代城市正在逐步发展变成智慧城市。准确的交通预测可以在很大的程度上帮助人们进行路线规划,指导车辆调度,减轻交通拥堵,实现交通控制策略和道路基础设施设置。交通预测的目的是在给定历史交通状态序列和实际道路网络的情况下,预测交通网络中的未来交通状态。由于在线导航服务、拼车和智慧城市项目的普及,交通预测问题最近引发了越来越多人的关注。由于道路交通状态的非平稳性,预测的准确性成为了一个基本的问题和研究方向。由于交通流量模式的时变性和对道路网络空间依赖的复杂性,交通预测是时空数据预测领域的一个非常带有挑战性的应用。对于地图上空间位置、日期、时间、假日或工作日等的计算组成了特征列表。环境因素也会影响交通拥堵,例如天气状况、道路质量、事件和道路属性。交通预测领域需要解决的主要问题有短期交通预测、长期交通预测、交通拥堵预测、旅行时间预测等。解决这些问题的关键挑战是如何对复杂和动态的时空依赖关系进行建模,捕获时变交通模式以及对道路网络的复杂空间依存关系等,并获得准确度可以接受的模型预测结果,。尽管交通预测在近年来取得了长足的进步,但是仍然存在许多开放挑战尚未得到充分调研,这些问题现在亟需解决。交通运输领域的未来能否更好地发展,将在极大程度上依赖于能否取得最佳的实际交通量预测。如今,准确预测的问题基于如何捕获交通数据中的时空相关性,如何对外部因素对交通状态的影响进行建模,如何同时进行准确的短期和长期预测等。当交通系统的复杂性并不太高时,且交通数据集的规模相对较小时,人们开展了很多以统计方法为核心的交通预测研究。但是,统计模型处理高维时间序列数据的能力非常有限。现有模型(例如ARMA、ARIMA)主要是线性模型,无法用于描述交通流的随机和非线性性质。而且,根据现实世界的空间依赖性来解释网络参数常常是不可能的,并且十分复杂。随着目前计算能力的快速发展以及交通数据量的极速增长,有关此主题的许多最新工作都集中在使用诸如CNN、RNN、GCN、GNN等交通预测深度学习模型方法上。用于交通流量状态预测的深度学习模型可以有效地学习交通数据集的高维特征并获得良好的预测性能。循环神经网络(RNN)及其变体,如长短期记忆(LSTM),也显示出解决交通预测问题的巨大潜力。由于LSTM及其变体在捕获序列数据的长期依赖性方面表现良好,因此已广泛应用于许多场景,例如交通、能源、医疗、经济领域等。交通数据是具有时空特性的;它在空间和时间维度不断变化,并具有复杂而动态的时空依赖性。与交通相关的可用数据集不断增长,为我们探索这一问题提供了潜在的全新的视角。近来,随着深度学习领域的发展,人们已经对该方向进行过了大量的研究工作,这极大地增强了交通预测能力。最近,社会越来越关注扩展图数据的深度学习方法。受来自深度学习的CNN、RNN和自动编码器的激励,本文将研究和探索深度学习方法。在本论文中,为了解决这一挑战并提出解决方案,提出了一种新颖的深度学习模型“Deep-GRN”,该模型使用图卷积和循环神经网络来学习和优化交通网络中道路之间的交互作用并预测网络范围的流量状态。在学习了交通数据中呈现的复杂的空间和动态时间相关性之后,再利用图卷积网络对道路网络结构的空间相关性进行建模,并且进一步使用基于RNN的神经网络对交通时间序列的时间相关性进行了建模。深度学习模型比经典方法利用了更多的功能和复杂的网络结构,因此可以实现更好的性能。本论文中,使用提出的模型来预测将来某个时间范围内某个路段内的交通流量状态。本文将一个路段称为“Link”。为了准确预测流量状态,分别使用了三个模型来从三种类型的数据中提取可利用的信息。这些模型分别是NFM模型(Bi-interaction)、LSTM(结合pooling)模型以及GCN模型。本文基于滴滴公司一个月跨度内的出租车数据集进行了实验,对交通流量、拓扑关系和道路属性这三个子数据集进行了测试,验证了模型和实验的有效性。Di Di数据集是向学术界公开免费提供的脱敏数据资源。首先,每个link本身都有很多标记数据,例如道路级别、速度限制级别等。这些标记数据代表每个link的特征。link本身的特征对于预测其流量状态非常重要。为此,本文使用NFM(神经因子分解机)模型来处理类别数据。另外,一定时期的交通状况也与历史同期的交通状况和早先时刻的交通状况密切有关。因此,本文从最近的数据和历史数据中提取特征。这些数据是序列的形式。循环神经网络是用于处理序列数据的最常用和最有效的模型。本文使用LSTM从两个不同时期的序列数据中提取信息。对于几乎所有序列预测问题,长期短期记忆网络(LSTM)是被公认的有效解决方案之一。如果数据量完全足够的话,则LSTM的高效表达能力可能会取得良好的预测结果。同样重要的是,道路都是连通的。每个link的状态也与它所连接的link有关。本文将每个link作为节点来构造特定区域中所有link之间的连接图。通过使用GCN模型,从连接的图中发现了link之间如何相互影响。当要预测某个link的未来流量状态时,使用GCN从由其及其周围节点组成的子图中提取信息,这将对预测效果带来提升。首先在Di Di数据集上完成了模型的评估以及从中提取特征与数值,之后开展了大量的实验比较了不同模型在Di Di真实公开数据集上的表现,最终给出评估与分析。本文将这三种有用的信息放在一起,并分别使用DNN和LGB模型与提出的Deep-GRN模型进行比较,以预测将来的link状态并进行结果分析。实验结果表明,本文提出的Deep-GRN模型比其他两个基准模型DNN和LGB明显表现得更准确。同时,结果明确地表明,Deep-GRN模型也更加高效,能够成功地预测将来某个时间的某个路段的状态。本文指出并分析了三个核心变量:类别数据(由NFM模型处理)、序列数据(由LSTM处理)和拓扑数据,DNN和LGB只以类别数据和序列数据为输入,难以处理拓扑数据。此外,这两个模型处理类别数据和序列数据也劣于本文所提出的模型。本文模型充分考虑了拓扑数据,同时在类别与序列数据处理上也表现出较好的效果。Deep-GRN模型之所以能够获得更好的预测效果,是因为其使用了多种有效的方法来解决该预测问题中的关键挑战,包括使用有效的评价函数以及诸如NFM、LSTM和GCN之类的强大模型组件。LSTM在相关的预测工作中占主导地位,通过将LSTM和图神经网络(GCN)等相结合,显式地建立了时空深度学习结构。但是,诸如复杂的数据预处理和对输入(例如邻接矩阵)的约束之类的问题导致这些模型的可靠性低,而在本文提出的Deep-GRN模型中,通过NFM来从邻接矩阵中提取路网拓扑特征。此外,本文模型最为重要的特点是它成功利用了拓扑信息(通过GCN),而基线方法没有。拓扑信息的引入使得每个Link同时具有自己及其他Link的信息。针对不同数据(类别数据,系列数据,拓扑数据)我使用了不同模型(NFM,LSTM,GCN)而不是仅将所有数据拼接送入同一模型。在实验中,当GCN部分被移除其性能将会下降,尽管模型可以更早收敛但损失值无法达到更低的水平。GCN的引入使得模型具有了更多参数,从而需求更多的训练时间,但同时效果的提升也是显著而值得的。值得注意的是,更多参数的引入仅仅使得训练轮数增加,在单轮预测中的时间开销是可以忽略不计的。本文的贡献在经济和学术领域都是有利的。在经济领域,有效的交通状态预测能够通过促进交通管理策略等可用功能的更有效使用来改善交通状况和减少延误,道路基础设施设置等。在深度学习和大数据时代,交通运输行业产生了大量的数据。基于这些数据,我们可以使用许多不同的数据集来预测交通状况。当涉及到使用深度学习模型理解流量预测时,本研究的结果可以用于改善用户体验。在学术背景下,这项研究将有助于直观地解释具有固有复杂动态时空关系的交通数据。