基于层次隐马尔科夫模型的中文地址切分标注系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:mainoracle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地址切分标注是把文字地址字符串切分为地址要素词串,并给出地址要素词串类型的过程。它是地址地理编码(Address Geocoding)过程中的基础环节,对于整个地址地理编码结果具有重要影响。由于中国地址系统的不规范性以及中文无分隔符的特性,中文地址切分标注一直是一个研究难题。   本论文基于国内外地址切分标注研究,以及中文分词(Chinese Word Segmentation)的研究,设计了一种基于N-最短路径(NSP)和层次隐马尔科夫模型(HHMM)的中文地址切分标注算法,旨在高效识别未登录词,提高切分标注准确率,并得到结构化、层次化的地址要素类型信息。待切分的中文地址字符串,首先经过N-最短路径算法进行粗切分,得到少量、高召回率的粗切分结果;这些结果作为层次隐马尔科夫模型求解最佳状态转移序列的输入,经过计算,最终得到具有层次化地址要素类型信息的地址切分结果。   为了验证设计的可行性,实现了一个中文地址切分标注原型系统,并以北京市和西安市地址进行了实验。针对北京市1000条地址进行实际地址批量处理,测试集测试结果切分准确率为85%,切分标注准确率为75%。通过对这1000条地址结果样本的详细分析,发现限制地址切分标注准确率的主要因素之一为数据稀疏问题。
其他文献
根据《广东省土地利用总体规划(2006-2020年)》的要求,2020年需新开垦耕地10.76万公顷,但目前全省可开垦的耕地后备资源只有5.33万公顷,远低于规划期间需补充的耕地量,因此必须寻求
5月29日,省国土资源厅党组召开专题学习会,进一步深入学习江泽民同志“三个代表”的重要思想。九名领导成员认真学习了江泽民同志2月下旬和5月中旬分别在广东、江苏、浙江、
崔保明于1995年至1997年担任岚县东村镇青台村党支部书记期间 ,利用职务之便 ,采用收入不记账、重复报账等手段 ,贪污公款5500元 ,非法侵占公款4563元 ,并拖欠国家定购粮折款108.5元 ,三项合计10171.5元。
全球化和地方化之间的辩证关系是研究发展中国家产业集群发展与升级的基础和热点问题,但是在全球与地方之间扮演重要角色的主体--跨国合同制造商,尤其是他们对我国加工贸易集群
学位
多溴联苯醚(PBDEs)是一种内分泌干扰物,近年来在各种环境介质及生物体内均有检出,成为环境研究关注的热点问题。但目前我国关于PBDEs环境问题研究工作主要集中在典型的重点污染区
学位
中国幅员辽阔,地域差异显著,经济发展水平不均衡,特别是中西部地区的经济发展相对滞后。缩小区域差异,促进区域协调发展,是国民经济平稳、健康、高效运行的前提。针对不同区域的特
随着城市化和工业化进程的加快,土地资源特别是城市建设用地的供给与社会需求之间存在一定的矛盾,土地的集约利用问题已成为经济社会发展的关键因素之一。在城市化进程日益加
长期以来,古代诗词、新闻传媒、政府工作报告、晚会串连词中经常出现以“某某大地”来代称某省.如果不熟悉相关的历史、地理掌故,难免有些不知其所指了.以下按相关标准来分类
期刊
湿地作为水陆交界处的特殊自然综合体,对于人类的生存和发展具有至关重要的作用,越来越受到社会和专家学者的关注。遥感和地理信息系统的发展极大地推动了湿地的研究和发展。传
根据《关于促进互联网金融健康发展的指导意见》(以下简称《指导意见》)和《网络借贷信息中介机构业务活动管理暂行办法》(以下简称《办法》)关于建立客户资金第三方存管制度