论文部分内容阅读
随着地理信息系统在我国信息化建设中的不断应用,信息资源整合与共享的需求越来越高,而非空间信息与空间信息整合是资源整合的重要组成部分,并且已经提出从这些隐含位置信息的非空间数据中提取出空间定位信息的需求。当前互联网中存在着海量的隐含地理位置的文本信息,如何将其转换成空间数据呢?地理编码就是解决这些问题的有效方法。地理编码引擎可从网页文本中挖掘出具有地理信息语义的内容,并将其转换成具有定位信息的有效地理信息。因此,地理编码引擎的研究有着深远的意义和巨大的应用前景。本文针对中文地理编码问题,提出了基于语义的地名地址、邮政编码、手机号码和身份证号码的识别与匹配的方法,并在模糊地名匹配上做出探索,采用挖掘上下文潜在定位信息的方法,提高了地址别名和不完整地名的识别率。本文对比了中文分词的常见算法,设计了基于中文语义分析的隐含地理信息识别和匹配引擎,建立了面向地理实体的基础地理参考数据库,开发了引擎原型应用系统,进行了互联网灾情新闻自动标绘和互联网房屋租赁信息搜索与定位的应用试验,取得了良好的效果。