论文部分内容阅读
地理编码是建立地理位置坐标与给定地址对应关系的过程。地理编码数据库主要记录了各类地址的标准名称、空间坐标的唯一编码,它是沟通抽象数据与真实空间的桥梁。
目前国内地理编码主要存在三个问题:
(1)国内目前还没有针对地址数据内容方面的标准和规范,地址数据内容描述不统一,造成标准地址数据库难以构建,地理编码技术的应用还仅仅局限于专业领域和部门内部,难以推广和普及。
(2)由于中国地名命名方法复杂,缺乏统一的标准,因此,地理编码的地址模型的确定就没有统一的规范,从而限制了地理编码软件的开发和应用。
(3)由于国内现有地址系统的无序性和混乱性,地址分词的准确率不高,匹配结果的准确性不够理想。
本文针对以上问题,对当前的地理编码应用做了较深入分析、研究,提出了地址规范化和地址模型的解决方案,在对中文自动分词研究的基础上,实现了地理编码的地址分词。并根据以上思路实现了地理编码系统。具体包括:
(1)对当前国内外地址规范化的现状进行了分析,提出地址规范化的解决方案。
(2)分析了地址模型的国内外现状,采用固定地址模型和组合地址模型结合使用的方式完成地理编码的需求。
(3)为了提高地址分词的准确率,分析了地址通名库和地址词库两种地理编码分词技术,在中文自动分词技术的基础上,建立了地址词库的四层词库结构。
(4)实现了基于文件版本的地理编码系统,设计并实现了地理编码数据库,完成单个和批量地址的定位功能。
(5)为了提高编码的效率,本系统中实现了地址标准库索引的构建和查询的算法,包括探测算法、中拼转换算法、二分算法、相似度算法。
本文以国家“863”项目——“面向网络海量空间信息的大型GIS”的研究中mapgis7.1版本的有关地理编码的需求为研究内容,文中程序代码直接来自试运行中的项目。