论文部分内容阅读
随着网络信息的爆炸性增长,人们在网上查询自己所需要信息的难度变得越来越大,搜索引擎的出现在某种程度上缓解了这个矛盾。独立的搜索引擎分布在不同领域、不同地方为用户提供服务,在早期设立较多,在当前的应用仍然是最广。虽然它相对容易实现,但是它的覆盖面狭窄,检索效率低,随着web的迅速发展,越来越显得力不从心。为了改变这种状况,它们中的一些搜索引擎改变了原来收集综合信息的方式,转为集中收集某一领域的信息,为专业检索用户提供精确的检索结果。这样的方式对清晰查询、专业查询尤其有效。但是,这种专业化的搜索引擎是以牺牲大的覆盖面为代价而取得某范围内的高精确度的。据专家评测,目前主要搜索引擎返回的相关结果比率不足45%,这主要是由于不同的搜索引擎所采用的算法和搜索范围不同。如果要得到相对全面、准确的搜索结果,必须同时调用多个搜索引擎,元搜索引擎就是在这样的背景下产生的。元搜索引擎能够扩大检索覆盖面,为提高检索的精确度打下了良好基础。本文主要介绍了元搜索引擎的相关内容,所做的主要工作如下:1、在阅读大量文章和相关文献的基础上,介绍了元搜索引擎技术的理论基础,包括元搜索引擎的发展状况,分类,研究的难点等内容。重点研究了元搜索引擎的结构原理和实现元搜索引擎过程中用到的关键技术,包括成员搜索引擎的选择和返回结果的合并等技术。介绍了这些技术所用到的相关算法,并在此基础上分析比较了各个算法的优劣。2、在如何选择元搜索引擎的成员搜索引擎的问题上,对比了现有的成员搜索引擎选择方法,并对他们进行了分析、比较和评价。对于用户来说,总是希望成员搜索引擎返回给自己的查询结果信息能够更有价值,因此针对这一问题,在阅读大量文献的基础上本文归纳总结了成员搜索引擎返回有用信息的算法。3、在对不同成员搜索引擎返回结果的合并处理中,本文详细的介绍了元搜索引擎在结果合并中所用到的相关算法,并对这些算法进行了分析比较;在成员搜索引擎返回的结果中不可避免的含有一些重复的网页、过时无效的网页以及广告网页等信息,针对这些问题,本文都给出了具体的解决方法;在返回结果的排序问题上提出了一个基于并行处理机制的并行排序算法,并对该算法进行了分析。4、在元搜索引擎中,不同的时间对于用户的同一个查询请求都需要重新查询,如果可以直接把上次查询过的结果直接返回给用户,就可以节省用户查询的时间。因此本文在介绍元搜索引擎的结构原理时增加了一个缓冲区数据库模块,以节省用户的查询时间。文中给出了增加缓冲区数据库的元搜索引擎的结构图,并对增加的缓冲区数据库进行了模拟实验。最后我们设计并实现了元搜索引擎系统。在此系统中,主要是针对元搜索引擎中的结果合并方面,也就是如何将各搜索引擎返回的结果进行删除和排序的问题,并根据实际的应用情况讨论了大量信息如何分页显示等其它相关问题。