论文部分内容阅读
随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注的课题。搜索引擎作为人们最常用的全文检索工具,是一个复杂的、对性能要求极高的系统,每天要处理数亿甚至数十亿的搜索请求(Query)。结果缓存(Result Cache)作为一个非常重要的性能部件,其重要性一直受到学术界和工业界的广泛关注。然而,随着搜索技术的不断发展,为了迅速处理网络上海量的文档资源,给用户提供最新的消息,学者们设计并实现了增量的索引模型,可以迅速有效的更新索引(index)文件的内容,这种更新周期往往可以达到一天甚至更短。在这个大前提下,搜索引擎的结果缓存面临内容过期问题:当索引更新过后,缓存中的内容也就不再是最新的内容了,如果继续提供服务,很有可能会给用户提供过期的内容。 本文在调研了国内外关于这个课题的研究现状的前提下,提出了以下几个方向的创新:⑴针对现有海量数据全文检索中,常见的缓存过期问题,设计和检验了一套新的结果缓存三级架构,并检验了其可用性和提升的效率;⑵分析了真实的搜索请求日志(Query Log),改进了缓存的替换策略,提出使用Topic Model和用户点击页面质量来度量搜索请求的重要程度,从而提高缓存命中几率;⑶在前人的研究成果基础上,提出了细粒度、低消耗、高准确度的缓存项替换方法,有效的节省了系统资源消耗;⑷在系统实现和试验中,本文检验了以上改进的可用性和有效性,并展示了本文方法对系统性能的提升。