海量全文数据检索系统中增量式结果缓存的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：yigeyongbao

【摘要】

：

随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注

【作者】

：

宗朗

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

文档资源数据挖掘缓存替换程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注的课题。搜索引擎作为人们最常用的全文检索工具,是一个复杂的、对性能要求极高的系统,每天要处理数亿甚至数十亿的搜索请求(Query)。结果缓存(Result Cache)作为一个非常重要的性能部件,其重要性一直受到学术界和工业界的广泛关注。然而,随着搜索技术的不断发展,为了迅速处理网络上海量的文档资源,给用户提供最新的消息,学者们设计并实现了增量的索引模型,可以迅速有效的更新索引(index)文件的内容,这种更新周期往往可以达到一天甚至更短。在这个大前提下,搜索引擎的结果缓存面临内容过期问题:当索引更新过后,缓存中的内容也就不再是最新的内容了,如果继续提供服务,很有可能会给用户提供过期的内容。　　本文在调研了国内外关于这个课题的研究现状的前提下,提出了以下几个方向的创新：⑴针对现有海量数据全文检索中,常见的缓存过期问题,设计和检验了一套新的结果缓存三级架构,并检验了其可用性和提升的效率；⑵分析了真实的搜索请求日志(Query Log),改进了缓存的替换策略,提出使用Topic Model和用户点击页面质量来度量搜索请求的重要程度,从而提高缓存命中几率；⑶在前人的研究成果基础上,提出了细粒度、低消耗、高准确度的缓存项替换方法,有效的节省了系统资源消耗；⑷在系统实现和试验中,本文检验了以上改进的可用性和有效性,并展示了本文方法对系统性能的提升。

其他文献

Android应用软件敏感行为收集、重现及软件恶意性判断

随着智能手机的普及,Android操作系统逐渐流行起来,并在2011年超越塞班,成为最流行的智能手机操作系统。Android巨大的市场占有率也吸引了众多的开发者为其开发应用程序。然

学位

智能手机信息安全程序检测软件工具

基于库搜索的蛋白质和糖分子质谱解析算法研究

随着生物医药技术以及计算机科学技术的发展，质谱分析技术在蛋白质组学及糖组学等多领域得到了应用，包括蛋白质鉴定、糖分子结构鉴定、生物标记物发现与疾病诊断建模等。　　质

学位

蛋白质糖分子结构鉴定技术质谱解析算法库搜索

基于云安全架构的虚拟网络交换技术研究与实现

云计算自从被提出以后，就一直是国内外计算机网络技术研究的一个热点。随着云计算的广泛应用，云计算平台的安全性成为了云计算的核心问题之一。云计算与传统计算相比最大的变化

学位

云计算安全虚拟交换技术网络隔离Open vSwitch技术VLAN技术

面向事件的文本检索技术研究

学位

测试用例与被测代码一致性分析工具的设计与实现

在软件迭代更新的开发过程中，会出现测试用例与被测代码不一致的情况，即当前的程序代码，并不能够全部通过旧版本的测试用例。这可能由当前代码的错误引发，也可能是测试用例造成。

学位

单元测试错误分类机器学习软件迭代更新

面向64位UniCore体系结构的C语言函数库的移植与优化

作为目标文件的集合，C语言函数库为系统运行和软件开发提供了必要的支持。64位技术的普及为计算机的发展注入了强劲动力。UniCore-3处理器是我国自主研发的64位处理器。为支持

学位

C语言函数库64位UniCore体系结构SPEC程序软件移植

无指导与半指导的核心论元语义角色标注研究

语义角色标注的目的是分析句子中特定动词的论元结构,识别出与该动词具有搭配关系的论元并分析这些论元的语义角色。近年来,有指导的语义角色标注方法已经得到了比较全面的研

学位

语义角色标注无指导法半指导法聚类核心论元

搜索引擎查询分类方法的研究与实现

查询意图被定义为查询背后的信息需求，正确分类用户的查询意图，能够帮助商业化搜索引擎优化检索结果，提供更加准确的检索服务。由于用户的查询　　关键词一般较短(平均长度2-3)，

学位

查询分类商业意图标签传播算法检索服务

一种面向UniCore体系结构的集成开发环境的设计与实现

软件开发是一个迭代的过程，通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具，包括编辑器、编译器、链接器、汇编器、函数库、调试器等

学位

集成开发环境UniCore体系结构微处理器嵌入式系统

面向固态盘的存储系统关键技术研究

基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性，如擦后写、擦写粒度不对称、擦写

学位

固态盘缓存系统软件设计硬件开发流水线式合并算法

海量全文数据检索系统中增量式结果缓存的设计与实现

与本文相关的学术论文