论文部分内容阅读
随着互联网的发展,信息逐步数字化、网络化、全球化,Web站点不断增加。有数据表明早在1992年2月,Web上已经大约有2.8×10~6台服务器,存储了约8×10~9个页面,信息量高达15TB。信息的采集、传播和利用在规模上的高速扩展,迫切要求一个高效、准确的检索工具帮助人们在浩瀚的信息海洋中收集、整理信息。 Web信息本身的增长速度、结构特点给这种检索服务带来了难度。搜索引擎(Search Engine)应人们的迫切需求出现以后,经历了从简单的机器人搜索软件(Robot Search Software)、独立搜索引擎(Single Search Engine)到专业搜索引擎(Specialized Search Engine)、元搜索引擎(Meta Search Engine)的发展历程,成为人们在Web上寻找信息不可或缺的工具。 独立搜索引擎相对容易实现,在早期设立较多,分布在不同领域、不同地方为用户提供服务,在当前的应用仍然是最广。但是它覆盖面狭窄,检索效率低,随着Web的迅速发展,越来越显得力不从心。为了改变这种状况,它们中的一些改变原来的综合信息收集,转为集中收集某一领域的信息,为专业检索用户提供精确的检索结果。这种方式对清晰查询、专业查询尤其有效。但是,这种专业搜索引擎是以牺牲大的覆盖面为代价而取得某范围内的高精度的。相反的,元搜索引擎是通过集成多今独立搜索引擎的方法来扩大检索覆盖面,避免重复查询的。而且,由于它的选择余地增大许多,因此,也可为提高检索精度打下良好基础。 但是,目前存在的元搜索引擎普遍的存在“最低常用分母(Lowest-common-denominator)”现象,这种现象削弱了元搜索引擎的优势。其中,最主要的原因是目标源搜索引擎的异构性给元搜索引擎的集成带来了很大的困难。虽然有人提出查询界面和文档结构的统一标准来解决这个问题,但是由于各种原因(遗留信息,作者不愿意遵循这些规则写文章等),没有被广泛采用。分布式方案,用划分子将整个信息空间分为多个子空间,在各个子空间设立信息检索”迄二’。硕士堂位论文一厂二、)?;匕S【厂S】’F工 子系统,独立或者联合为用户提供服务,既可节省资源,又可扩大检索覆盖面, 但是它需要提供相关的协议转换机制、协调工作机制,在现阶段实现比较困难。 本文选择元搜索引擎为研究对象,在分析独立搜索引擎、元搜索引擎、分 布式搜索方案的现实优缺点基础上,以科技文献检索为例,设计了一种改进型 元搜索引擎。对元搜索引擎的集成对象、具体实现方案进行了详细规划,试图 最大限度解决元搜索引擎的集成困难、从界面、调度、显示三方面显示其巨大 优势。 设计在对搜索引擎发展现状研究的基础上,将现有技术进行改进,同时引 进新思想、对相关部分采用新方法,使元搜索引擎综合了其它各类搜索引擎的优势,变得简单、高效、可行。最后,做出结论,面向用户对搜索引擎的需求,指出了今后的主要研究方向。