海量全文数据检索系统中增量式结果缓存的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yigeyongbao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注的课题。搜索引擎作为人们最常用的全文检索工具,是一个复杂的、对性能要求极高的系统,每天要处理数亿甚至数十亿的搜索请求(Query)。结果缓存(Result Cache)作为一个非常重要的性能部件,其重要性一直受到学术界和工业界的广泛关注。然而,随着搜索技术的不断发展,为了迅速处理网络上海量的文档资源,给用户提供最新的消息,学者们设计并实现了增量的索引模型,可以迅速有效的更新索引(index)文件的内容,这种更新周期往往可以达到一天甚至更短。在这个大前提下,搜索引擎的结果缓存面临内容过期问题:当索引更新过后,缓存中的内容也就不再是最新的内容了,如果继续提供服务,很有可能会给用户提供过期的内容。  本文在调研了国内外关于这个课题的研究现状的前提下,提出了以下几个方向的创新:⑴针对现有海量数据全文检索中,常见的缓存过期问题,设计和检验了一套新的结果缓存三级架构,并检验了其可用性和提升的效率;⑵分析了真实的搜索请求日志(Query Log),改进了缓存的替换策略,提出使用Topic Model和用户点击页面质量来度量搜索请求的重要程度,从而提高缓存命中几率;⑶在前人的研究成果基础上,提出了细粒度、低消耗、高准确度的缓存项替换方法,有效的节省了系统资源消耗;⑷在系统实现和试验中,本文检验了以上改进的可用性和有效性,并展示了本文方法对系统性能的提升。
其他文献
随着智能手机的普及,Android操作系统逐渐流行起来,并在2011年超越塞班,成为最流行的智能手机操作系统。Android巨大的市场占有率也吸引了众多的开发者为其开发应用程序。然
随着生物医药技术以及计算机科学技术的发展,质谱分析技术在蛋白质组学及糖组学等多领域得到了应用,包括蛋白质鉴定、糖分子结构鉴定、生物标记物发现与疾病诊断建模等。  质
云计算自从被提出以后,就一直是国内外计算机网络技术研究的一个热点。随着云计算的广泛应用,云计算平台的安全性成为了云计算的核心问题之一。云计算与传统计算相比最大的变化
学位
在软件迭代更新的开发过程中,会出现测试用例与被测代码不一致的情况,即当前的程序代码,并不能够全部通过旧版本的测试用例。这可能由当前代码的错误引发,也可能是测试用例造成。
作为目标文件的集合,C语言函数库为系统运行和软件开发提供了必要的支持。64位技术的普及为计算机的发展注入了强劲动力。UniCore-3处理器是我国自主研发的64位处理器。为支持
语义角色标注的目的是分析句子中特定动词的论元结构,识别出与该动词具有搭配关系的论元并分析这些论元的语义角色。近年来,有指导的语义角色标注方法已经得到了比较全面的研
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询  关键词一般较短(平均长度2-3),
软件开发是一个迭代的过程,通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具,包括编辑器、编译器、链接器、汇编器、函数库、调试器等
基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性,如擦后写、擦写粒度不对称、擦写