论文部分内容阅读
近年来,信息技术日新月异,带动了各个行业的迅速发展,相应的数据量也在不断剧增,地址信息也相应地跟随更新和增加。电子地图的出现使得文字描述的地址能够映射到地理空间坐标上,实现这种映射的技术即为地理编码技术。地理编码一般包括地址标准化、地址分词、地址匹配、空间定位等步骤。其中,地址分词的作用主要是采用某一分词方法将中文地址拆分成若干个最小地址单元,为后续的地址匹配过程做铺垫,这也是地理编码中最为核心、关键的一步。本文主要对中文地址分词进行研究,重点分析中文地址的组成特点和规则,采用条件随机场模型解决中文地址分词中的未登录词识别问题,并构建出基于标准地址模型的知识库,基于此知识库设计出适用于中文地址标准化分词的算法,开发出可靠的中文地址分词原型系统,并通过实验验证其可行性。论文具体工作如下:1.构建基于标准地址模型的知识库。地址模型是本文研究对象中文地址中地址要素的组织方式,直接影响后面分词算法的设计和最终分词的准确率。通过对海量的中文地址数据的组成特点的研究和总结,中文地址分词需要完整的全国行政区划等级库,地址特征词库和地理实体名词库作为分词依据。2.设计有效的中文地址分词算法。中文分词算法的设计包括分词算法的选取和基于地址组成规则的分词结果处理算法的设计。由于分词算法已经比较成熟,结合中文地址特点,本文依据构建的知识库采用双数组trie树的字符串匹配方法对中文地址进行初步分词;针对初步分词结果中的歧义、错分等现象,本文又设计了基于地址组成规则的分词结果处理算法来对其进行消歧义、推导验证等处理,大大提高了分词的准确率。3.开发实现了一个中文地址分词的原型系统。本论文基于上述的地址知识库和中文地址分词算法开发、实现了中文地址分词原型系统,对该系统的性能和功能进行了实验测试,并与纯规则的分词方法做了比对,实验结果表明采用统计和规则的分词系统的分词准确率可达92.37%,远高于纯规则方法的分词结果,证明了系统的可靠性。