基于互联网POI的中文地址要素库自学习构建方法研究

来源 :兰州交通大学 | 被引量 : 2次 | 上传用户:fh1130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网页中所涉及有关空间位置的信息也越来越多,使其成为地理信息数据获取和更新的重要数据来源之一。但是,由于互联网数据的多样性、复杂性和异构性等特征,使得对于它们的挖掘与分析变成了一个新问题。关于中文地址要素库构建方法的研究就是其中问题之一,地址要素库作为地址信息资源集成、融合与管理的核心枢纽,承担着地址信息资源整合、支撑技术应用的职能,为社会公众和政府各职能部门提供可靠、高效、准确的地理位置定位服务。针对中文地址文本信息的描述特点和地址要素匹配服务的需求,本文从中文地址要素切分、语义标注及层级关系构建等方面进行了较为系统地研究,并设计开发了原型系统。主要的研究工作内容及创新点如下:(1)基于GRU神经网络的中文地址要素切分方法研究:针对传统机器学习模型对中文地址要素切分,需要人为的提取特征以及模型训练时间较长的缺点。提出了基于门控循环单元(Gated Recurrent Unit,GRU)神经网络的中文地址要素切分方法,并采用三词位标注法对切分字符进行标注。该神经网络具备自动学习特征,避免了人工特征选择对中文地址要素切分的影响。同时,三词位标注法提升了中文地址要素切分性能,减少了模型训练时间。基于百度地图中各类型的名录数据和POI兴趣点地址数据,对神经网络模型进行训练和验证实验,其结果表明,该网络模型相对于传统机器学习模型在切分性能和模型效率方面都有显著提升。(2)地址要素语义标注与层级关系构建:针对中文地址要素的语义标注通常采用地址文本间的语义关系进行标注,从而忽略了地址要素的空间位置信息的缺点。本文提出了基于关键词匹配和基于位置推测的地址要素语义标注方法,并通过Tire树构建了地址要素之间的层级关系。通过对切分后的地址要素进行实验分析,其结果表明,该标注方法在标注效率、标注准确率和标注覆盖率方面较其他方法具有明显优势。(3)原型系统设计与实现:根据各中文地址要素表之间的关联关系,本文设计了 7张不同结构的数据库表格,并在此基础上研发了中文地址要素管理系统,实现中文地址要素的切分、中文地址表达模式的统计以及中文地址要素的增、删、改、查等基本操作。
其他文献
这片土地上不但埋葬着赵匡胤、赵光义等7位北宋帝王,还埋葬着历史上赫赫有名的寇准、包拯、杨六郎等功臣明勋。提起皇家陵园,秦陵、唐乾陵、明十三陵、清东陵、清西陵……或许
报纸
为保证大型望远镜的成像质量,需要通过次镜调整机构对次镜的位姿进行调整。而六自由度并联平台因其相对串联构型的高精度、高刚度优点,被广泛应用在次镜调整机构中。但由于次
<正>2014年11月5日至11日,亚太经合组织(APEC)第22次领导人非正式会议,在我国首都北京举办。这一活动是继2008年奥运会后,在京举办的又一重大国际性活动。为此,公安部特地从1
在我国改革开放进程中,外资无疑助力甚多。受限于国内融资环境不佳、产业限制及繁复的审批程序,到境外上市融资也成为越来越多企业特别是民营企业的选择。协议控制模式作为企业境外间接上市中所常采取的方式之一,一直以来饱受争议。一方面其形式并未违反国家相关法律法规及产业政策的限制,另一方面从实质上来说却是一种法律规避行为。对企业而言,协议控制模式结构复杂且具有不稳定性,不稳定性主要来源于商业实践中对监管政策过
健美操运动是一项最适宜学前幼师生进行锻炼的项目,它既可以促进身体健康又塑造优雅的形体,所以可以为幼师生将来职业发展奠定坚实的基础。艺术表现力是决定健美操观赏价值的
锦鸡儿属(Caragana Fabr.)为豆科灌木,广泛分布于我国荒漠区、草原区和森林区,具有重要的经济和生态价值。本论文以干旱地区分布的柠条锦鸡儿(C.korshinskii)、半干旱地区分布的
基于“5G”建设的推进,人工智能、虚拟现实、数字经济等快速发展,企业要想在激烈的市场竞争中立足,不仅需要与时俱进,更需要从自身出发,不断提升创新能力。目前,中国企业的国际竞争力存在不足,缺乏核心技术成为普遍现象,掣肘企业的同时,也阻碍了国家经济的发展。突破全球价值链中的“低端锁定”,由“中国制造”向“中国智造”转变,迫在眉睫。虽然江苏省在支持企业创新发展政策力度上不断增大,但在企业转型升级和“腾笼
1994年4月22日,仅用一条22K的国际专线将中国互联网接入世界。而今,中国已成为网民规模全球第一的互联网大国,实现互联网与工业等传统产业的广泛融合,完成了从“追随者”向“
电化学传感器是传感器中的重要组成部分之一,因其操作简单、易微型化、成本低廉、选择性好、灵敏度高、稳定性好等优点,成为现在分析技术的重要研究方向之一,广泛应用在疾病