论文部分内容阅读
随着在线社交媒体的兴起,国内外各大平台的社交媒体数据,都已成为研究数据的重要信息来源。如何从中进行交通事件的有效分类,如何从中挖掘出交通相关信息并成功提取,成为亟待解决的问题。
本文以交通事件的微博数据为研究对象,研究其网页特点,使用爬虫技术获取微博交通文本;针对文本特征及研究领域,创建专属语料库,对其进行文本去噪、中文分词、词性标注等数据预处理。
通过LDA主题建模算法对微博交通文本的主题进行挖掘,以困惑度为依据将文本进行主题划分,得到主题-词汇矩阵,并对划分的主题内容进行了分析,将其归纳为合理的分类类别作为分类依据。通过对机器学习分类算法和深度学习分类算法的分类结果进行评价,选取卷积神经网络(CNN)构建了文本自动分类器,实现了微博交通文本的自动分类。
在此基础上,构建命名实体识别表达框架,基于条件随机场识别文本中的时间实体和地点实体;将交通事件的时间维度融入到传统的空间核密度中,构建时空核密度模型用以鉴别事件多发点,同时使用ArcScene进行三维可视化展示,更直观的分析高速公路交通事件的时空集聚特征。
基于ArcGIS平台,实现高速公路交通事件时空立方体模型的构建和时空数据的存储;基于Getis-Ord Gi*热点模型,对在时空中具有统计意义的高速公路交通事件点进行检测和识别;基于Mann-Kendall时间趋势检验模型,对时间和空间变化趋势进行长期测量,为进一步分析,将时空冷热点变化的模式分为17种,以提炼交通事件的时空规律。
最后,以重庆高速公路相关的微博作为研究数据来源,对2015年—2019年间,重庆市高速公路的地质类交通事件、气象类交通事件、施工类交通事件和事故类交通事件进行分析和研究。结果表明:从交通事件总量上看,路网密度越大的区域,交通事件总量越高;高速与高速、高速与普通公路相交位置交通事件总量较高;不同类别的交通事件特征不同;此外,时空核密度比传统的热点地图更容易检测出事件多发点路段,时空立方体模型可以从中微观角度对交通事件进行建模分析,时空冷热点方法在评估交通事件点的不同演变规律方面也是有效的。
本文以交通事件的微博数据为研究对象,研究其网页特点,使用爬虫技术获取微博交通文本;针对文本特征及研究领域,创建专属语料库,对其进行文本去噪、中文分词、词性标注等数据预处理。
通过LDA主题建模算法对微博交通文本的主题进行挖掘,以困惑度为依据将文本进行主题划分,得到主题-词汇矩阵,并对划分的主题内容进行了分析,将其归纳为合理的分类类别作为分类依据。通过对机器学习分类算法和深度学习分类算法的分类结果进行评价,选取卷积神经网络(CNN)构建了文本自动分类器,实现了微博交通文本的自动分类。
在此基础上,构建命名实体识别表达框架,基于条件随机场识别文本中的时间实体和地点实体;将交通事件的时间维度融入到传统的空间核密度中,构建时空核密度模型用以鉴别事件多发点,同时使用ArcScene进行三维可视化展示,更直观的分析高速公路交通事件的时空集聚特征。
基于ArcGIS平台,实现高速公路交通事件时空立方体模型的构建和时空数据的存储;基于Getis-Ord Gi*热点模型,对在时空中具有统计意义的高速公路交通事件点进行检测和识别;基于Mann-Kendall时间趋势检验模型,对时间和空间变化趋势进行长期测量,为进一步分析,将时空冷热点变化的模式分为17种,以提炼交通事件的时空规律。
最后,以重庆高速公路相关的微博作为研究数据来源,对2015年—2019年间,重庆市高速公路的地质类交通事件、气象类交通事件、施工类交通事件和事故类交通事件进行分析和研究。结果表明:从交通事件总量上看,路网密度越大的区域,交通事件总量越高;高速与高速、高速与普通公路相交位置交通事件总量较高;不同类别的交通事件特征不同;此外,时空核密度比传统的热点地图更容易检测出事件多发点路段,时空立方体模型可以从中微观角度对交通事件进行建模分析,时空冷热点方法在评估交通事件点的不同演变规律方面也是有效的。