互联网地理信息爬虫技术研究与应用

来源 :山东农业大学 | 被引量 : 0次 | 上传用户:bianhao9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统地理信息数据采集通常是通过国家地理信息普查、实地勘察等方式获取数据。然而,随着社会的不断发展,居民区、道路等因素的不断变化,这种数据采集形式中数据成本高、工作量大、效率和时效性低等问题日渐突出。互联网的不断发展,互联网上交织的地理数据与日俱增,这些数据中隐藏着丰富的知识。从互联网中抓取相关的地理数据成为了地理信息来源的一个新渠道。互联网中蕴含着大量的地理信息数据,爬虫技术的诞生在一定程度上解决了Web数据获取的难题,但一般的通用爬虫很难对互联网中存在的地理信息进行有效的爬取。互联网地理信息爬行技术在总结归纳通用爬虫技术的基础上,不追求大的覆盖,将目标定为抓取与互联网地理信息内容相关的网络数据,使抓取工作更具针对性,通过互联网地理信息爬虫技术解决地理信息采集工作中数据成本高、工作量大、效率和时效性低等问题。本文的主要研究如下:(1)分析归纳互联网地理信息承载网站特点。结合浏览器工作原理,通过分析互联网地理信息承载网站的信息交互和展示方式,按照浏览器工作原理,从爬虫信息采集角度将浅层地理信息承载网站主要分为了三种类型:M-Dom类型、M-Render类型、M-Trigger类型;结合具体实验,对深层网络地理信息承载网站分析,重点研究了深网POI地理信息的承载网站的特点。(2)互联网地理信息获取技术研究。针对浅层网络地理信息采集场景,重点研究了单页面和列表页面的抓取方法;针对深网POI地理信息采集场景,总结了采集难点、采集技术,设计了两套内容检索词,研究了相关的抓取策略。(3)技术验证与原型系统开发。在方法、技术、策略的研究的基础上,设计了互联网地理信息采集原型系统,从系统的架构、功能、模块、核心逻辑等方面介绍了设计的细节,实现了原型系统并进行应用验证。
其他文献
赣州是有色金属矿产资源较丰富的地区之一,但其有色金属矿产资源管理方式还是传统上的属性数据与图形数据相互分离,无法直观地了解赣州有色金属矿产资源空间分布状况、开发与保
地下矿产资源被采出后,引起的地表沉陷是一个时间和空间的非线性变化过程,在对地表移动变形规律的实际研究过程中不仅要考虑地表变形趋于稳定后最终移动变形值的大小及分布,还必
有效控制沉降和不均匀沉降是高速铁路线下工程高平顺性的重要保障,在区域沉降地区,地面的不均匀沉降不仅会降低线路设计高程,改变线路坡度,还会造成线下工程出现不均匀沉降,