基于Web的空间数据爬取与度量研究

被引量 : 19次 | 上传用户：guoyurun

【摘要】

：

Web技术的飞速发展,为人们提供了丰富的信息,同时带来大量的信息冗余。如何快速定位用户需求,是目前网络检索中常见的问题之一。尤其在空间信息领域,空间数据涉及几何与属性

【作者】

：

王明军

【发表日期】

：

2013年01期

【关键词】

：

空间敏感爬虫空间数据爬取置信度度量空间数据分类标签

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web技术的飞速发展,为人们提供了丰富的信息,同时带来大量的信息冗余。如何快速定位用户需求,是目前网络检索中常见的问题之一。尤其在空间信息领域,空间数据涉及几何与属性两种信息,这种信息的独特性,在网络环境下只能通过文字描述信息与几何图形信息两方面分别表现。当前,对于空间信息的检索,主要集中在文字描述匹配方面,针对空间几何信息检索研究相对较少。本文在分析当前网络环境下空间信息检索存在问题的基础上,探讨了解决空间信息检索所涉及的主要研究领域,以及这些领域国内外的研究进展。论文从网络信息爬取入手,讨论空间信息在网络化环境下的主要特征与分类体系,探讨不同类型空间数据的解析与识别方法,针对不同数据类型与对应页面,阐述数据置信度度量基本方法,同时扩展空间数据分类体系,提出爬取空间数据分类标签体系思想,基于此体系,实现空间数据存储管理与后期应用,最后通过实例模型验证了空间数据爬取的某些过程,并做了相应质量评价与分析。论文针对不同空间数据类型,深入探讨了基于空间信息敏感爬虫爬取数据的基本原理与方法。首先引入空间敏感爬虫概念,介绍其与传统爬虫的异同与工作流程,以及空间敏感页面和网页链接空间信息与空间检索词的相似度度量。其次重点论述了不同类型空间数据发现机制,即空间数据服务、栅格、矢量及其他数据的发现方法,针对不同类型,讨论其在网页中的表现形式,解析的基本过程,其中对涉及主要算法与模型,给出了必要说明与阐述。论文提出了Web空间数据的置信度度量方法。Web空间数据由于描述信息缺乏,其数据质量很难准确衡量,后期数据检索与应用相对困难。结合空间数据质量的一些基本方法,综合考虑空间数据文本描述与数据本身信息,提出了定性度量矢量、栅格数据的方法。其次,对不同空间数据类型置信度做了分析比较,对链接到同一空间敏感页面的不同资源,选取较大置信度对整个页面最佳匹配。论文结合元数据模型与目前空间数据分类体系,提出了Web空间数据的分类标签思想。Web环境下空间数据由于表达尺度、范围、要素等等差异,很难采用传统的分类体系对其划分,必须采用新的方式记录其数据描述信息,借助元数据模型及数据应用相关的分类体系,提出了分类标签体系模型。在此基础上,对Web数据获取后,数据的存储管理,后期数据检索与应用做了简单说明。通过实例模型,对整个空间敏感爬虫从页面过滤,到信息提取,再到质量的基本评价,进行了必要的验证。分析、总结了相关理论与实践之间存在的不一致性问题,表明了网络空间数据爬取问题的复杂性,为后续研究奠定一定的理论与实践基础。最后论文对基于空间信息爬取基本整体流程的各个环节进行了总结,提出了下一步研究的几个方向。

其他文献

谢趣生的抗战漫画

谢趣生,四川省盐亭县麻秧场龙骨石人,1906年出生在一个贫苦的家庭。自幼读书,天资聪慧,勤奋好学,尤喜好绘画。1925年入成都华阳中学,毕业后,考入成都高等师范学校艺术系。他

期刊

四川漫画社《新新新闻》

横断山区季风期水分盈亏量时空变化特征及其与若干气候指数的相关性分析

基于横断山区27个气象台站1961—2012年的实测数据,应用Penman-Monteith模型、气候倾向率空间插值、交叉小波和相干小波变换等方法分析横断山区季风期水分盈亏量的时空变化趋

期刊

气候变化水分盈亏Penman-Monteith模型季风期横断山区

汉语新词的葡语翻译探究

词汇是语言中最活跃的元素。任何一个新现象都很有可能带来一个新词。因此，我们就能够通过新词来观察社会与文化的变迁。汉语新词的作用就像是一面镜子，照出了汉语的多元化。由

学位

新词汉葡翻译翻译策略

日本新开发酱油生产技术续篇

<正> 本刊曾于1987第3期刊出日本新开发的酱油生产技术,介绍了低浓度盐水兼酵母发酵速酿低盐酱油、电渗析脱盐制低盐酱油、含钙低盐酱油、膨化原料制高产优质酱油,调整脱脂大

期刊

酱油生产低盐酱油浓口酱油浓酱油嗜盐片球菌

降雨和土地利用对地表径流的影响——以北京北护城河周边区域为例

以北京北护城河周边区域为例,探讨了降雨和土地利用对地表径流的影响。选取了2011—2012年4—11月的15场降雨,分别代表小雨、中雨、大雨、暴雨、大暴雨和特大暴雨这6个雨量级

期刊

北京北护城河降雨量地表径流深度渗透面积比例

对农民工金融需求与服务情况的调查

当前,农民工问题受到社会各界的密切关注,农民工的金融需求与服务问题亟待解决。本文在实地调查研究的基础上分析该问题的深层次原因,提出相关对策建议。

期刊

农民工金融需求金融服务

上海电网新技术应用展望

随着上海高新技术企业的发展和信息化社会的建设,用户对电能质量提出了更高的要求;上海电网目前的输电走廊和变电站选址已经非常困难,电网建设也常因此受到影响;在厂网分离的

期刊

电网电力系统城市电网新技术电能质量

基于可持续增长理论的公司财务战略研究

随着经济的发展，企业的竞争环境也越来越复杂，面对复杂的竞争环境，企业需要制定全面的发展战略保持企业的持续增长。其中，企业的财务战略就是保障企业现金流安全、促进企业持续发

学位

财务战略可持续增长战略模型

理论线损分析系统在上海电网的实现和应用

指出理论线损分析系统由理论线损计算系统和理论线损分析系统组成,其功能包括分析功能、数据输入编辑功能、计算功能、查询功能等,按照配电网的电压等级区分理论线损分析系统

期刊

线损精细化理论线损分析系统功能

中国纸媒深度报道及社会发展图景

随着新媒体技术的迅猛发展，传统媒体正面临着严峻的挑战和巨大的生存压力。尤其是对于纸质媒体而言，如果不积极适应网络时代传播环境，消除影响纸质媒体发展的不利因素，发挥其自身

学位

深度报道社会发展图景中国青年报特别报道

基于Web的空间数据爬取与度量研究

其他学术论文