论文部分内容阅读
随着信息化的不断发展和网络资源的日益膨胀,人们对于资源获取的方式,包括准确性、多样性、便利性等要求也越来越高。在这种背景下,传统搜索引擎,如Google、Yahoo、百度等,虽然得到了突飞猛进的发展,但同时也存在着网页覆盖率不足、处理能力有限、搜索接口不统一等许多问题。
元搜索技术是解决这些问题的有效方法之一,它通过联合多个搜索引擎,对返回结果进行处理,并提供统一的查询与结果返回接口,从而提高搜索查准率与查全率。基于元搜索技术的这些优点,本文紧紧围绕理论和应用两个层面,对元搜索技术展开探索和研究。
理论上,当前有关元搜索技术的研究主要集中在排序合成算法(Data Fusion)。排序合成算法可依据它们需要的信息进行分类,包括是否需要相关度分值或排序位置信息,以及是否需要训练数据。然而,根据数据合成性质,越优秀的成员搜索引擎返回的文档准确性也越高,成员引擎的权重值也应当是排序合成的一个重要考虑因素。据此,本文以加权分值类算法为基础,利用Dark Horse效应以及文档和成员搜索引擎之间互为推荐的对偶关系,根据各文档的“共识度”构建成员搜索引擎的自生成权值。并且,利用Skimming效应,在算法中引入“浏览者模型”,只由排序位置信息即可计算文档相关度分值。
与其他加权类算法不同的是,这些改进不依赖于包括相似度函数在内的成员搜索引擎技术细节的先验知识,同时也不需要训练数据。并且,这些改进也不是针对某一特定算法,而是可以应用到任何加权分值类算法中的一种改进。基于这两项主要改进并结合CombMNZ算法,提出改进Comb的自生成加权排序合成算法。最后,通过TREC数据集进行实验,证实了这些改进的有效性。
在应用方面,本文以个人学术信息协同软件平台“SCHOL@”为依托,将元搜索技术应用到垂直学术搜索引擎中来,探索并设计实现了基于个人学术信息的个性化web学术搜索引擎。该引擎主要提供中国期刊网、IEEE、Google Scholar等数据源的中英文学术论文和著作信息检索,为学者提供有效的学术信息提取,以及学术信息检索服务。通过实验和分析可以看出,基于元搜索技术的学术搜索引擎的有效性确实得到了提高。