论文部分内容阅读
随着城市化的不断发展,智能交通领域已经变得越来越火热,新技术的发展带来了一系列的新课题需要人们去研究。出行模式识别就是现阶段智能交通领域里的一个热门课题。出行模式识别对于运输研究人员,工程师和政府人员研究城市人口的行为以及规划,设计和管理运输系统来说至关重要。除此之外,出行模式识别在基于活动的建模中也发挥着重要作用。本文主要研究城市人口出行模式的识别,通过采集城市人口出行轨迹数据,对数据进行分析清洗,提取相关特征,利用机器学习与深度学习的相关算法来识别单个出行轨迹属于哪一类出行模式。本文使用的数据为移动数据,其中包括GPS轨迹数据和手机信令数据,除以上两种以外还借助了相关地理信息数据,包括基站位置数据与地铁站经纬度数据等。首先是移动数据分析与处理部分。本文使用了微软亚洲研究院开源的Geolife项目数据来进行研究。该项目数据形式为GPS轨迹数据,本文先将该数据中的label文件与GPS轨迹数据文件进行匹配,让每一段轨迹数据都有相对应的出行模式标签。对于原有数据的12类出行模式中不需要的一些模式进行剔除,最终保留六类出行模式的数据样本,一共获得3412个样本。然后对所有的数据样本提取了22个相关特征。除GPS轨迹数据之外,本文还使用手机信令数据进行相关实验研究。对于手机信令数据来说,其粒度粗,位置精确度低的特点导致该类型数据并不适用于对出行模式识别模型的直接训练,因此对手机信令数据实验部分采取迁移学习思想,利用之前GPS轨迹数据来训练模型,再将模型迁移至手机信令数据进行模型验证。其中,由于原始的手机信令数据缺乏数据标签的支撑,因此并不能直接用作相关实验。对此,本文利用长春市出租车轨迹数据,长春市公交车轨迹数据和长春市基站位置数据,基于一定规则将两类出行方式的轨迹数据转化为手机信令数据。采取迁移学习思想,利用GPS轨迹数据来训练模型和验证模型,再将训练好的模型迁移到手机信令数据,进行基于手机信令数据的模型验证。在经过处理之后的六类出行模式样本中,地铁出行模式具有与其他五种出行模式不同的特点。地铁出行模式的起点与终点具有明显趋近与地铁站附近的特点。由于大多数地铁线路都在地下运行,导致信号丢失严重。再加上地铁列车属于封闭的金属体,GPS信号也可能不完整。这就导致在地铁旅行期间不存在任何GPS点或仅存在少量GPS点记录。这些特殊的特征使得对于地铁出行模式的识别应该与其他交通方式的出行模式识别不同。因此,针对地铁出行模式,本文采用基于行程段的起点与某个地铁站之间的距离小于临界距离和行程段的终点与某个地铁站之间的距离小于临界距离这两条规则来对地铁出行模式进行识别。最终结果的识别准确率为0.828897。对于出行模式六类样本的整体分类问题,实验的数据样本具有数据质量高,样本数量可观,样本区分度明显的特点。因此,本文还使用基于深度学习的深度因子分解机算法,利用之前提取的相关特征,来对GPS轨迹数据的六类出行模式进行分类研究。对于转化后的手机信令数据提取与GPS轨迹数据相同的特征,再利用训练好的模型对手机信令数据样本进行模型验证。最终对于GPS数据,总体准确率达到了0.6735,结果要优于多层感知机模型。最后,本文使用基于机器学习的随机森林模型,Light GBM模型,采取与深度因子分解机模型的相同的处理程序,对基于移动数据的出行模式识别方法进行相关研究。对于GPS数据,Light GBM模型的准确率达到了0.90776,随机森林模型的准确率达到了0.855051,实验结果要明显优于支持向量机模型的实验结果。对于手机信令数据也进行相关实验及实验结果对比。