基于统计和规则的中文地址分词系统设计与实现

来源 :东南大学 | 被引量 : 10次 | 上传用户:tzhole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息技术日新月异,带动了各个行业的迅速发展,相应的数据量也在不断剧增,地址信息也相应地跟随更新和增加。电子地图的出现使得文字描述的地址能够映射到地理空间坐标上,实现这种映射的技术即为地理编码技术。地理编码一般包括地址标准化、地址分词、地址匹配、空间定位等步骤。其中,地址分词的作用主要是采用某一分词方法将中文地址拆分成若干个最小地址单元,为后续的地址匹配过程做铺垫,这也是地理编码中最为核心、关键的一步。本文主要对中文地址分词进行研究,重点分析中文地址的组成特点和规则,采用条件随机场模型解决中文地址分词中的未登录词识别问题,并构建出基于标准地址模型的知识库,基于此知识库设计出适用于中文地址标准化分词的算法,开发出可靠的中文地址分词原型系统,并通过实验验证其可行性。论文具体工作如下:1.构建基于标准地址模型的知识库。地址模型是本文研究对象中文地址中地址要素的组织方式,直接影响后面分词算法的设计和最终分词的准确率。通过对海量的中文地址数据的组成特点的研究和总结,中文地址分词需要完整的全国行政区划等级库,地址特征词库和地理实体名词库作为分词依据。2.设计有效的中文地址分词算法。中文分词算法的设计包括分词算法的选取和基于地址组成规则的分词结果处理算法的设计。由于分词算法已经比较成熟,结合中文地址特点,本文依据构建的知识库采用双数组trie树的字符串匹配方法对中文地址进行初步分词;针对初步分词结果中的歧义、错分等现象,本文又设计了基于地址组成规则的分词结果处理算法来对其进行消歧义、推导验证等处理,大大提高了分词的准确率。3.开发实现了一个中文地址分词的原型系统。本论文基于上述的地址知识库和中文地址分词算法开发、实现了中文地址分词原型系统,对该系统的性能和功能进行了实验测试,并与纯规则的分词方法做了比对,实验结果表明采用统计和规则的分词系统的分词准确率可达92.37%,远高于纯规则方法的分词结果,证明了系统的可靠性。
其他文献
基于第一性原理构建了钨基合金体系的溶质偏聚模型,以W-In体系为例研究了不同浓度下溶质的晶界偏聚行为和成键特征,从电子结构层面揭示了W-In体系的键合作用,预测了W-In体系
研究结果表明,蚕丝绸经γ-共辐照接枝NMA后,可以大大提高湿折皱回复角。辐照剂量、丝绸中NMA的起始含量、湿度和辐照过程的连续性是影响接枝增重率的主要因素,而辐照剂量率则
目的分析早产儿胃肠外营养并发胆汁淤积症的临床特点和预防措施。方法因黄疸原因收入消化科的患儿中诊治的胃肠外营养并发胆汁淤积症早产儿20例设为观察组,另选同期的20例采
目的观察不同剂量及分割方式下对骨转移癌疼痛的疗效。方法50例骨转移癌患者分为两组,常规分割组26例,40~50Gy/4~5周,5次/周,2Gy/次;大分割组24例,采用大分割快速照射,30Gy/2周,3次/周,5Gy/次
<正>中风病发病率高,危害严重,历来被视为风、劳、臌、膈四大难症之首。起病急、病情重、变化快,是中风发病的特点。临证采取灵活便捷的辨证方法,准确辨证,及时施药,提高中风
会议
当前,我国经济犯罪死刑立法虽然日趋减少,但仍在少数罪名中保留。事实上,从性质上看,对经济犯罪适用死刑有违罪刑同质对应性原理;从经济学效率审视的视角看,对经济犯罪适用死