【摘 要】
:
倒排索引是提高全文检索效率的重要技术,但是倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题。本文正是围绕动态全文索引的构建合并、增量
论文部分内容阅读
倒排索引是提高全文检索效率的重要技术,但是倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题。本文正是围绕动态全文索引的构建合并、增量更新、压缩存储和查询检索等展开研究,以提高其索引检索的综合性能。本文对基于倒排索引的文件结构以及索引构建合并算法进行了研究,目标是建立与因特网海量信息相适应的动态即时索引文件,高效快捷实现索引检索查询。实现动态全文索引技术的难点,一是要提高压缩率,压缩倒排索引有助于提高查询的吞吐量;二是要兼顾动态性,这就需要考虑到索引的添加合并和删除更新带来的系统开销。本文在对倒排列表的动态特点分析基础上,发现文档ID和词的位置信息可使用d-gap编码后再采用变长压缩方法进行压缩,词频则可直接变长压缩,增加压缩比。这种混合编码的办法在压缩效率方面优于其他支持动态更新的编码。在对倒排索引文件结构进行深入的研究之后,确立了一种高效的索引文件结构,允许多个子索引同时存在,并在某一特定时间进行索引合并优化,实现高效增量地构建索引。实验表明,采用类哈夫曼树的动态合并策略可以得到更优的效果。在索引查询方面,提供了多种检索模型和查询方法。基于以上的研究成果,本文最后设计并实现了一个动态高效的全文索引实验原型系统,包括了常用文本数据解析、索引构建合并、索引查询应用等模块,为进行相关的算法实验和研究提供了一个基础平台,也为实际的开发应用提供了相关扩展接口。
其他文献
视觉感知是人类的主要信息源,人类感知外界信息的80%来自视觉。使计算机能像人那样通过视觉来观察和理解世界,并具有自主适应环境的能力,是人类多年以来的梦想。但是,当前视觉
现实世界的很多复杂系统(如社会网络、蛋白质交互网络、因特网等)都是由相互联系的实体组成的,自然地以网络的形式存在或者可以用网络来表示。社区结构刻画了网络中节点间关系的
RFID (Radio Frequency Identification)射频识别技术,是一种快速的、非接触式的识别技术,基于低成本、易使用、技术成熟等特点,RFID技术已经被广泛应用到各个领域中。RFID企
本论文的主要内容是研究和开发一个半导体设备的数据采集控制系统。该系统采用eBox作为硬件平台和嵌入式Linux作为操作系统。根据用户的要求,在Qt/Embedded开发环境下,用C++
伴随着信息革命的快速发展,GIS已成功和Web技术相结合,把 GIS空间数据管理推进到 WebGIS空间信息服务。随着公众对地理信息应用新的需求和新技术的出现,现有的WebGIS产品表现出
随着网络应用领域的不断深入,如何保证信息安全,特别是在非安全的网络信道中传输信息的安全性,就成为一个非常重要的研究课题。密码技术作为信息安全的核心技术,一直是信息安
指令集随机化技术是一种通过随机变换程序指令编码来抵御代码注入攻击的新型防御技术,改变了传统安全防御易攻难守的被动局面,实现了对已知和未知代码注入型漏洞攻击的主动可控
科技文献检索是科技研究不可或缺的一项工作,随着电子文献资源的剧增,通过网络来检索文献,是目前最为方便的检索途径。目前Internet上用户使用的信息检索模式有基于关键词、
随着大数据时代的来临,流交换正在逐步成为数据交换发展的新趋势。它具有数据量宏大、内容不可预测和低时延的特性。然而,随着流交换应用的与日俱增,流交换的安全问题日益凸显。
随着社会的发展和科学技术的进步,现代社会对测量实验仪器的需求及其性能要求在不断提高。虚拟仪器改变了传统仪器的思想,充分利用计算机强大的软硬件功能,把计算机技术与仪