中文文本空间关系标注方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:ly518888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言与GIS的集成是目前GIS的重要研究方向之一。由于自然语言的词汇、句法和语义都存在不确定性,通过设计标注体系和语料标注实现自然语言的形式化,有助于计算机获得更丰富、更有价值的空间信息,从而提高语言处理水平。不同应用中的空间语言存在很大差异,研究者通常根据不同目的选择不同的结构化方式。面向GIS的空间语言形式化需要充分考虑GIS和自然语言中地理信息的表达方式。空间关系是地理信息的重要组成部分,本文围绕中文文本中空间关系标注方法展开的研究,主要研究内容和成果包括三个部分:   (1)设计面向中文文本的地理命名实体和空间关系标记语言。标记语言是构建空间关系语料库的基础,本文参考现有地理信息标记语言,在分析中文文本和GIS中地理命名实体和空间关系的表达特点的基础上,设计了相应的标记语言。   (2)制定中文文本中地理命名实体和空间关系标注规范。通过分析和实际标注地理命名实体和空间关系,将其在中文文本中的多种描述方式总结归类,并举例说明不同情况如何标注,以规范语料库标注,使标注方式尽可能统一。   (3)构建地理命名实体和空间关系标注语料库。为验证本文的标注方法,选取《中国大百科全书(地理分册)》为数据源,自然语言处理软件GATE为标注平台,构建地理命名实体和空间关系标注语料库。该语料库为文本中地理信息抽取、空间场景构建等研究提供了数据基础。   本文研究表明,在充分考虑中文文本和GIS中空间关系描述特征的基础上,制定中文文本空间关系标记语言和标注规范,可以有效地标注中文文本中的空间关系,为文本中空间关系抽取和场景构建提供了数据基础。
其他文献
中国的中产人群是伴随着工业化、现代化快速延伸的多元群体,其文化、品位、价值观念有很大的差异。但在商业时尚,特别是消费主义文化的推波助澜下,他们正以格式化的优雅诉说他们是怎样的人,想成为怎样的人。  宜昌这座长江中上游交汇处的千年古城,在三峡工程的推动下,成为多种社会发展阶段高度浓缩的代表性地区,同时伴生了大量的中产人群。他们可以粗略分为经济资本较优的新富阶层和文化资本较优的白领阶层。随着这个群体的
随着Web技术的兴起,B/S (Browser/Server)架构在系统应用中变得越发重要,它是对C/S架构的一种变化和改进。2005年之后,Ajax (Asynchronous JavaScript AndXML)已经成为B/S架构
随着全世界范围内旅游业的快速发展,以及旅游业经济效益、社会效益、生态效益的逐步凸显,我国区域旅游开发活动呈现两大特点:一、对已开发旅游地的纵向、深度挖掘,不断提高旅
学位
<正>随着科技的飞速发展,各种新技术层出不穷,从2016年至今的VR虚拟现实、人工智能、3D打印技术备受投资者青睐,特别是3D打印技术已经非常成熟了,普遍应用于工业生产、航天、
本文主要运用主成分分析法对典型城市湖泊—东昌湖和自然湖泊—东平湖环境指标进行对比分析,探明对湖泊水质起主导作用的环境因子,利用修正的卡尔森营养状态指数法结合硅藻组合