基于海量文本信息挖掘的地理信息变化发现

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:ssfdlah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网科技的日新月异和不断普及,使互联网的信息与日俱增。搜索引擎的出现,为精确、快速地寻找需要的信息提供了非常大的帮助。大约1/5的搜索引擎输入的查询与地理信息相关。如何从搜索引擎中得到有用的网络地理信息,是地理信息系统(GIS)研究的一个重要方向。网络中绝大多数的地理信息被包含在了非结构化的海量文本数据中,当使用者对搜索引擎提出自己的需求时,由于搜索反馈信息量的过多和低精确度,很难从纷繁复杂的网络信息中迅速得到自己的目标信息。因此,如何对包含有地理信息的网页主题内容进行提取,如何从海量的地理信息中提取变化的地理信息,是本课题要研究的主要内容。论文提出一些基于互联网的地理信息变化解决方案,包括基于文本挖掘的地理信息变化发现总体思路和基于主题信息提取与过滤的发现方法,并提出一个可以快速更新迭代地理信息数据的系统的架构。详细设计并实现了基于主题提取的文本地理信息变化发现系统。主要研究工作如下:(1)系统的客观工作需要,系统中包含了数据分析和数据展示两个层面:在数据分析方面,将网页检索和变化信息提取获得的大量文字描述与平台地名库、行政界线等信息进行对比分析,获取变化信息所在的概略位置,作为空间信息变化地物的位置参数存储起来,结合平台的路径分析工具,可以引导变化更新测绘人员方便到达其所在位置;在数据展示方面,可以利用空间信息变化地物的各种参数,设计一套符号系统,以专题信息形式在平台上展示,使平台维护管理人员可以直观分析各类变化信息的分布,科学制定更新变化信息的策略和手段。(2)系统主要功能模块包括:数据库管理模块、信息检索模块、主题信息提取模块、主题信息变化发现模块和结果展示模块。其中,主题信息提取模块克服了传统的文本信息提取的不足,系统在句型匹配的基础上,加入语义理解,在检索精确性会得到了较大的提升。(3)系统实现与成果展示,试验显示,效率明显跳高,搜索有了显著的减少。数量从原来的10000条减少到了3000条。对结果进行分析比较,正确率平均提升了55%,最高时达到了90%,表明了系统设计的有效性和可行性。
其他文献
混合像元分解一直是高光谱遥感图像研究领域的一个热门话题。混合像元分解技术主要分为两个过程:端元提取和丰度反演。而混合像元分解的关键技术之一就是端元提取,亦是本文的
基于电化学方法的生物传感器具有高灵敏度、高选择性及低成本的特点,其可以用来检测DNA及蛋白质等,因此,在近20年,其在医药卫生、生物工程、环保等诸多领域都得到了广泛的应用。
糖尿病(diabetesmellitus)是胰岛素绝对或相对分泌不足以及靶组织细胞对胰岛素敏感性降低所引起的代谢紊乱,临床以高血糖、高血脂、高粘血症为主要标志的全身慢性代谢性临床综
该文研究的主要问题是利用时间序列分析方法建立垂直形变动态模型及利用该模型进行垂直形变预报的方法,并对时间序列分析方法在区域垂直形变分析与预报中的应用进行初步探讨.
尺度是研究事物或事物现象的空间维和时间维的度量大小。地球空间表面复杂,人们在某一尺度上所建立的模型或总结出的规律,在另一尺度上未必有效或需要修正,不同区域所需空间观测
该文在简要论述国内外水文系统在水情信息获取、水文因子演算、水坝系统安全预测等方面的研究现状和发展概况的基础上,着重分析了中国目前在这些方面存在的不足,并以某水坝系
在人们工作、生活中,地理信息是比较重要的信息,人们自觉不自觉地在使用它。地理信息系统在建设行业中已得到广泛的应用,如城市规划、城市管理等,并已渗透到其它相关的信息技术产