网页文本地名地址信息识别与萃取方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:july1126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络、云计算、物联网等信息技术的飞速发展,人类社会正以未有的速度阔步迈进“网络大数据”时代,特别网络自媒体信息的爆炸性增长,其包含的海量信息已经成为GIS领域重要的数据源。互联网作为现代社会最重要的信息发布、传播和交流的载体,蕴含着丰富的地理空间信息,已成为传统地理信息采集方式的有效补充。由于网络信息多样性、随意性、交互性等特点使得这些信息难以自动识别萃取,无法转换为GIS工具的数据源作进一步统计和分析,因此完成对网络信息中包含的地理空间信息的识别与萃取对有效利用“互联网大数据”至关重要。网络信息常以文本的形式展现,有效识别与萃取网络文本信息中的以地名地址形式出现的地理空间信息是有效的解决方式。网络文本信息中地名地址识别是指对文本信息进行语义分析,发现其中包含的规范的、不规范的地名地址信息。网络文本信息中地名地址萃取是指利用地名地址的以数学形式表示的属性值,实现准确萃取目标地名地址。本研究在分析了网络信息以及网络信息中地名地址特点的基础上,采用了一种基于“地名地址基因库”的网络文本地名地址识别与萃取方法,其研究结果如下:(1)网络文本信息中地名地址识别方法。定义了地名地址基因,釆用地名地址由地名地址基因组成,构建了面向某区域的地名地址基因库。改进了中文分词算法,以“地名地址基因库”为词典,识别网页信息中的地名地址基因。按照基因相邻规则组合基因来还原了网页信息中的地名地址串,以达到地名地址识别的目的。(2)网络文本信息中地名地址萃取方法。本研究尝试用数学方式解释地名地址固有的属性,依据地名地址事件属性、所在文本位置、字符长度以及词频信息,生成萃取规则树,并计算地名地址的萃取权重,依据萃取权重值实现精确萃取目标地名地址的目的。(3)实验证明本研究方法切实可行,有较好的效率和准确率,研究成果已经应用到“北京市西城区地理空间政务数据挖掘、分析及展示技术研究”项目中,实现了对网络信息实时获取并在WEB前端直观展现。
其他文献
盼望警钟长鸣,长治久安煤矿工人最大的心愿是什么?井下安全生产、平安无事,井上安定团结、政通人和。当我们来到山西煤乡晋城矿务局古书院矿安监处长张王路的办公室时,安全指标逐
煤田火灾不但浪费了宝贵的煤炭资源,而且引起了环境污染与人居安全等众多问题。因此,煤火问题必须立即加以研究并解决。遥感技术由于其探测范围广和时效性强等特点,已经成为
海盐是两碱及有机合成等行业的重要原料,其母液是盐化工业的基本原料,盐田所养殖的海产品还能丰富人们的食品资源。科学地开发盐业资源,提高海盐产品质量,并同步发展盐化工业及水
三次受伤教训深──盐城利国煤矿职工张德宏的亲身经历安全,对享受健康和安乐的职工来说,是心田流溢的蜜;对违章作业而受伤致残以至于家庭陷入困境的人来说,犹如扎在心头的一把尖
本文按照国家主体功能区划总体框架思路,结合浙江省温州市洞头县经济、社会、环境的实际情况,对现有的经验和理论综合加工提炼,以海岛县(包括陆域区划和海域区划)主体功能区规划
通过对垞城煤矿局部反风方案的研究,为其他生产矿井提供了一个调整反风结构的范例. Through the study on the local anti-wind project in Yuncheng Mine, it provides an
选贤任能是件大事。什么样的人该用,什么样的人不该用,关乎党的形象,关乎长远发展。近年来,我省坚持民主、公开、竞争、择优的改革方向,不断从整体上推进干部人事制度改革,铲
讲党性,重品行,作表率,三者辩证统一,相辅相成。党性是首要的,失去党性就失去根本;品行是基础,没有好品行就无以谈党性;表率是结果,不讲党性不重品行,表率就是空谈。组工干部
通过对露天矿现有开拓运输系统的改造、简化,采用内部排土方式,缩短了列车运距,提高了设备效率,降低了消耗。 Through the reform and simplification of the open pit transpor
开展“讲党性、重品行、作表率,树组工干部新形象”活动,关键是要解决组织工作和组织部门的“公信”问题,树立组织工作和组织部门的“公信”形象,努力提高组织工作公信力和满