地理信息检索若干技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:caonisbma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(WWW)已经逐步成为一种人们获取信息的重要来源,信息检索则是帮助人们快速准确的获取所需信息的技术。信息检索相关技术的研究对于国民经济的发展有着非常重要的现实意义,无论学术界与工业界都投入了越来越多的力量与资金来促进信息检索的研究与应用。另一方面,近年来地理信息系统技术的飞速发展以及基于地理位置的移动信息服务的普及,使得人们对地理相关信息的关注逐渐升温。因此,对于地理位置的信息检索技术的研究有着迫切的需求和现实意义。地理信息检索(GIR)就是关注地理信息的一种检索技术。多数文档都含有某种地理信息,如何对这些地理信息进行检索是一个非常值得研究的问题。目前对地理信息检索的研究内容主要包括地理信息抽取,针对地理信息的排序模型与算法,结合地理信息的索引结构,地理信息可视化以及地理信息挖掘等等。长远来看,基于地理位置的信息检索以及相关的服务,有着广阔的科研和应用前景。本研究分别在如下方面对地理信息检索的相关技术进行了研究:1.一种基于LDA模型的地理信息检索模型。目前大部分的检索模型都是基于关键词匹配的算法,但是检索的发展趋势是语义检索。LDA(LatentDirichlet Allocation)是近年发展起来的有效的文本概率图模型,它可以自动发现文本的潜在主题。本研究拟提出把LDA概率图模型和传统的文档检索模型相结合,利用LDA发现词之间潜在相关性的能力,提高文本信息检索的准确度。而地理信息检索是该算法的应用对象,因为表示地理位置的词互相之间有着很强的相关性,很多相关的地理位置不便在查询词中描述,所以通过该方法,能帮助减少查询词和文档之间的语义鸿沟,并提高检索结果的准确率。2.一种基于语言模型的地理信息检索模型。区别于传统的信息检索,地理信息检索通过一个查询范围词(query spatial scope)来限制用户的兴趣区域。目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果中。但是,词在地理空间的词频分布并不是均匀的,那么词在排序结果中的重要性也应该随着查询范围的变化而有所改变。因此,我们提出了一种新的基于语言模型(Language Model)的地理信息检索模型,把查询范围引入到传统的语言模型中。在该模型中,我们引入了一个本地语言模型(Local Model)来描述查询词的地理分布特性。实验结果表明新的检索模型优于TF-IDF与传统的语言模型。3.基于隐含地名的地理信息索引结构。目前的地理信息索引结构都没有考虑隐含的地理信息,例如,对于查询“snowstorms in North America”,传统的方法就是简单地返回所有包含“North America”的网页。实际上,假如一个网页包含“Canada”,“United States of America”,或者“Mexico”,也是跟这个查询相关的。“North America”可以看作是“Canada”的隐含地名。在这个研究中,我们把在文档中显式提到的地名的祖先称之为隐含地名,并提出了一种基于隐含地名的地理信息索引结构,并把它和不同的索引结构相比较。实验结果表明我们的结果好于之前的方法。4.IR-tree:一种高效的地理信息索引结构。目前的地理信息检索系统采取的索引结构都是简单的反向索引结构与空间索引结构相结合的方式,该方式是顺序执行查询,需要遍历所有的相关文档,导致查询效率低下。实际上,用户通常只会关心top-k的结果,所以没必要对所有相关文档处理。所以本人提出一种把反向索引结构和空间索引结构R-tree有机结合的高效索引结构IR-Tree,通过R-tree对文档相关联的地理位置进行索引,并在R-tree中的每个节点保存辅助统计信息。该统计信息包含对文档进行排序所必需的统计量。同时我们提出一种新的Rank-based文档查询算法。该算法利用优先队列来保存IR-tree的树节点,这些节点按照tf-idf的值进行排序,每次只有一个节点将会被处理,那么只有最可能包括top-k文档的节点需要被检索,每当处于队列首的元素是文档时就可以把它放到结果队列中。当结果队列的文档数达到用户需要的k时,算法将会停止。IR-tree结合Rank-Based查询算法,将有效的减少文档搜索空间,只需要对top-k文档进行检索,从而减少了I/O的消耗,提高了查询效率。5.一种新的地理信息查询词分类框架与算法。黄页在线查询是口前地理信息检索的主要应用之一。如何针对用户的查询词来提供有效的广告内容是工业界非常关注的课题,而对查询词分类后就可以根据查询词类别来提供合适的在线广告。黄页查询词和传统的查询词有很大的区别,一方面黄页查询词有地理位置的限制,另一方面,黄页查询词的类别体系是层次化的并且类别数目很大,而黄页也有层次化体系结构划分。本研究提出一种基于类别结构匹配的黄页查询词分类技术,该技术利用相似性公式找到黄页分类体系和目标分类体系的匹配关系,然后利用搜索结果对应的目标分类综合情况来进行查询词分类。为了得当更高的分类准确率,本研究提出了多种结果过滤算法。初步结果表明该技术的分类效果比简单的关键词匹配法和传统的SVM分类效果更好,而且无需人工标注训练数据,鲁棒性强,可以适用于任意大规模的目标类别体系。
其他文献
针对机电产品表面涂装的Ⅱ级精度装饰性要求,对中压开关柜涂装时出现色差,达不到精度要求的问题展开分析,从环氧-聚酯粉末静电涂装时固化温度的均匀性、粉末配方原材料的热稳
目的探讨成人肱骨髁间髁上骨折行切开复位内固定手术治疗后影响肘关节功能恢复的相关因素。方法对我院2007年1月至2009年12月期间收治的23例肱骨髁间髁上骨折患者,均采用切开
<正>自从去年中国游客到日本搬回不少马桶盖之后,智能马桶就一炮而红。据说,国内智能马桶的市场培育时间缩短了至少5年,销量猛增。为何日本的智能马桶盖会突然那么火?其实,有
中国网络游戏市场保持高速增长的势态,吸引了大量的竞争者进入这个行业。面对竞争,如何吸引玩家、保持玩家忠诚度己经成为网络游戏运营商最关心的问题。本文在回顾相关文献的
中职学生是一个特殊的群体,正处于生理、心理都发生巨大转变的关键时期。由于种种原因,许多中职学生存在学习差、行为习惯不好、自制力差、逆反心理强等诸多问题,给班级管理
目的对外伤致隐匿性腹膜后血肿的抢救护理经验与体会进行探讨。方法选取2012年4月至2014年11月就诊于我院的12例外伤导致的隐匿性腹膜后血肿的患者作为研究对象,对这12例患者
当前我国经济飞速发展,科学技术不断进步,然而这些都源于我国对素质教育和培养创新人才的重视。目前我国下达的新课改目标对初中语文教学提出了更高的要求,要求初中语文教学
全面探讨制备涂料用水溶性醇酸树脂过程中原料及配比、合成工艺设计、反应条件控制、性能指标控制等诸多因素对树脂性能的影响,结果表明科学优选原料组分、合理控制反应工艺,
<正> 1983年7月1日,中国人民解放军基建工程兵北京指挥部的3万官兵脱下戎装,组建了北京市城市建设工程总公司,从此城建人就走上了一条充满艰辛和希望的改革、发展之路。20年