论文部分内容阅读
互联网科技的日新月异和不断普及,使互联网的信息与日俱增。搜索引擎的出现,为精确、快速地寻找需要的信息提供了非常大的帮助。大约1/5的搜索引擎输入的查询与地理信息相关。如何从搜索引擎中得到有用的网络地理信息,是地理信息系统(GIS)研究的一个重要方向。网络中绝大多数的地理信息被包含在了非结构化的海量文本数据中,当使用者对搜索引擎提出自己的需求时,由于搜索反馈信息量的过多和低精确度,很难从纷繁复杂的网络信息中迅速得到自己的目标信息。因此,如何对包含有地理信息的网页主题内容进行提取,如何从海量的地理信息中提取变化的地理信息,是本课题要研究的主要内容。论文提出一些基于互联网的地理信息变化解决方案,包括基于文本挖掘的地理信息变化发现总体思路和基于主题信息提取与过滤的发现方法,并提出一个可以快速更新迭代地理信息数据的系统的架构。详细设计并实现了基于主题提取的文本地理信息变化发现系统。主要研究工作如下:(1)系统的客观工作需要,系统中包含了数据分析和数据展示两个层面:在数据分析方面,将网页检索和变化信息提取获得的大量文字描述与平台地名库、行政界线等信息进行对比分析,获取变化信息所在的概略位置,作为空间信息变化地物的位置参数存储起来,结合平台的路径分析工具,可以引导变化更新测绘人员方便到达其所在位置;在数据展示方面,可以利用空间信息变化地物的各种参数,设计一套符号系统,以专题信息形式在平台上展示,使平台维护管理人员可以直观分析各类变化信息的分布,科学制定更新变化信息的策略和手段。(2)系统主要功能模块包括:数据库管理模块、信息检索模块、主题信息提取模块、主题信息变化发现模块和结果展示模块。其中,主题信息提取模块克服了传统的文本信息提取的不足,系统在句型匹配的基础上,加入语义理解,在检索精确性会得到了较大的提升。(3)系统实现与成果展示,试验显示,效率明显跳高,搜索有了显著的减少。数量从原来的10000条减少到了3000条。对结果进行分析比较,正确率平均提升了55%,最高时达到了90%,表明了系统设计的有效性和可行性。