论文部分内容阅读
本文涉及的内容是介绍有限状态机、研究有限状态机并实现其在地址识别中的应用。在文中首先介绍确定有限状态机、非确定有限状态机与概率有限状态机的理论知识及其工作机制,从而将三种模型集中到同一理论框架下。然后将这些理论知识应用到地址识别中。在应用有限状态机进行地址识别的过程,本文采用不同于以往将单个文字作为有限状态机中弧的权值的策略,由于一个地址完全可以将行政单位名作为基本单元,于是本文的有限状态机将行政单位名作为弧的权值,这样不仅降低了实现算法的空间复杂度,还提高了算法的执行速度。为了达到以行政单位为基本单元进行识别的目的,文中采用ICTCLAS分词系统对地址进行分词,将分词后的单元依次输入有限状态机进行识别。在识别的初始化阶段,文中提出并实现了一种创建有限状态机的算法,该算法采用状态点中嵌套结点的方法,从而在创建有限状态机的过程中将有限状态机的转换按照一定规律排序,由此提高了查找下一转换的速度。在识别过程,文中采用索引查找实现了识别算法,在基于创建的有限状态机下,此识别算法具有少量搜索、少量匹配的优点,因此可以提高识别速度。为验证算法的准确性与快速性,最终本文以广东省全部的县级以上行政单位作为输入集合建立了有限状态机并对部分地址进行识别。结果显示,通过这个有限状态机可以实现对地址的准确、快速识别。文中首先实现的地址识别是要经过严格的匹配,但是在现实中人们输入的地址很多是不规范的。于是,在文章的最后又介绍了采用概率有限状态机进行地址识别的规则,这些规则可以对书写不规则、有书写错误的地址进行模糊识别。