基于Apache Spark的公共自行车系统使用状况分析

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:pz199
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国乃至世界范围内的城镇化进程的推进,城市交通正面临前所未有的压力。一方面交通拥堵造成了极大的时间浪费,由此带来不可预估的直接或间接的经济损失;另一方面大量的用车还带来了极大的环境污染。近几年来公共自行车作为一种新型的公共交通出行方式受到了广泛的关注。它扩展了传统公共交通,如公交车、地铁等不能触及的城市交通出行的末端,很大程度的解决了公共交通“最后一公里”的问题。但是由于城市出行的不确定性,特别是潮汐现象等造成了公共自行车经常出现“借车难”和“还车难”的现象。本文针对公共自行车历史数据量大、数据结果展示复杂、影响公共自行车使用的因素复杂等诸多问题,对第三代公共自行车的使用特性和使用量预测进行了基于Apache Spark大数据平台的分析与研究。本文主要完成的研究内容如下:  (1)阐述了公共自行车作为城市出行中重要的组成部分对绿色出行、倡导低碳生活的重要意义,以及在大数据时代背景下,公共自行车项目使用大数据工具的必要性。  (2)通过对大数据工具的梳理,搭建了以Apache Spark为核心的公共自行车使用分析的大数据处理平台,并通过D3.js、Carto、Python和R等工具和编程语言实现数据的可视化展示。  (3)以美国纽约市的Citi Bike公共自行车系统的开源数据作为本文实验数据,使用Spark SQL和Spark Dataframe编程实现对公共自行车用户和站点两个角度的使用状况的统计与分析。总结了不同用户类型对公共自行车使用的影响;并使用K均值聚类算法对站点的使用规律做了分析。  (4)基于Spark MLlib机器学习库,使用随机森林和梯度提升回归树两种算法实现对Citi Bike每日使用量的预测。以历史天气数据为决策树特征进行模型建立,并对所建立模型结果进行了评价,验证了所选算法的可靠性。
其他文献
随着电力电子技术的发展,越来越多的非线性负荷电力设备投入使用,导致了电能质量的恶化,因此,电能质量问题越来越被人们所关注。对电网信号的监测成为了电力系统研究工作的一大热
随着工业4.0时代的到来,“智能工厂”、“智能生产”成了现代制造业的发展趋势,自动化检测技术是智能化制造的组成部分,不但可以大幅度减少人工,同时也可保证产品质量,欧美先进制
无线自组织网络(Ad Hoc网络)是一种特殊的自组织、对等式、多跳无线移动通信网络。Ad Hoc网络可以在没有基础设施支持的情况下提供灵活方便的通信,这种技术拓宽了移动通信的
基于机器视觉系统的缺陷检测在工业生产中的应用越来越广,要求也越来越高,目前市面上的机器视觉系统主要为板卡式机器视觉系统(即PC以及工业摄像机组成),结构复杂,体积庞大,安装困难
轮胎安全备受关注,因爆胎引起的交通事故数不胜数。爆胎监测与安全控制系统是一款能实时监测轮胎气压、温度变化的事故避免系统。本文首次提出将轮胎气压监测系统与排气辅助
无人机作为一种飞行设备,具有成本低、尺寸小、速度快、机动性强等特点。因此它能代替有人机执行重复性、高危险性任务。而无人机群相对于单个无人机具有更高的执行任务的效率
我国北方地处严寒地带,如果混凝土材料的抗冻性不能达标,过早的损坏不但需要昂贵的维修与重建费用,还可能会对人民的生命财产造成重大损失。作为检测混凝土抗冻性的重要实验设备,传统的混凝土材料冻融机在实时数据传输和智能控制方面仍有不足,并且对于长时间的测试,仍需要人工的介入,还会导致实验结果的准确性不高。本文运用Labwindows/CVI与单片机技术,设计了混凝土快速冻融试验设备,对温度和液位数据进行实
对于日益壮大的疏浚行业来说,反铲挖泥船有着不可替代的作用。反铲挖泥船特殊的反铲装置使它能胜任各种不同的挖深,并能在狭小的工作场所进行挖掘,而且在对硬质土层的挖掘上有相
规划识别从提出到现在经过了30多年的发展历程,应用领域有自然语言理解,军事协作,入侵检测,反恐等。2003年,Sumit S提出了动态概率关系模型理论,该模型是建立在概率关系模型(PRMs)
在环境日益恶劣,石油资源紧缺的今天,混合动力车的发展是汽车发展的必然趋势。微混合动力车是混合动力车的初级阶段,因其怠速熄火创造了最高性价比的节能减排。改造原有发电机为