论文部分内容阅读
在大数据时代,如何快速、高效的对海量的多源数据进行分析并建立舆情监控和引导机制从而为管理者提供决策支持是当前研究的热点和难点。随着空间数据采集、存储和分析处理等现代技术手段的迅速发展,一方面,空间数据量急剧膨胀,复杂性显著增大;另一方面,空间数据库存在的大量空间数据及其相关的非空间数据中隐藏的许多重要的信息未得到充分利用,尤其对于网络舆情数据分析方面发展缓慢。新浪微博在我国拥有上千万的用户量,每天产生大量的用户信息,分析和挖掘新浪微博舆情数据具有很高的应用价值。本文针对目前研究新浪微博网络舆情较少的前提下,以面向“一带一路”的社交网络舆情空间语义关联分析为研究方向,利用新浪微博网络舆情数据,通过自然语言处理和空间分析等方法,主要完成了以下内容:(1)通过分析关于“一带一路”话题的新浪微博网络舆情数据,设定用于数据获取的关键词,并通过数据爬虫技术和新浪微博开放平台提供的数据接口两种方法获取到新浪微博网络舆情数据。(2)对获取得到的新浪微博网络舆情数据进行分析,设计网络舆情数据存储类型和数据组织形式,并使用MySQL网络数据库对数据进行存储,构建主键和数据库引擎,使数据的检索等操作更为便捷。(3)选择了合适的获取地理空间数据方法,包括博文文本自带的地址数据、IP地址解析等,通过百度地图地址解析API得到百度地图坐标系的经纬度坐标,并通过坐标系转换获取图块坐标。通过中文文本分词技术对博文文本进行分词处理,统计了博文热词词频,得出了高频热词,并通过分析新浪微博话题表现形式,结合高频热词总结出了热门话题。(4)构建文本语义相似度分类模型,实现了对未知博文文本自动分为对应的主题类别。通过构建语义树,计算了基于主题的语义关联度,得到了语义树各个节点之间的关联度,为信息检索提供了支持。对网络舆情进行了时空特征分析,总结了网络舆情按照时间和空间上的变化规律和分布状况。针对百度地图瓦片服务,实现了基于瓦片图块的空间语义聚类分析。(5)结合WebGIS相关技术,利用Vue、Laravel等开发框架,构建了基于B/S的面向“一带一路”的社交网络舆情空间语义关联分析可视化平台。