基于固态硬盘的倒排索引动态更新策略及其优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:realmummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索系统所面对的数据集通常是不断增长的大量文本集,为了及时处理新增的文档以满足用户的实时检索需求,高效的在线倒排索引更新策略显得尤为重要。现有的倒排索引更新策略一般都是基于传统磁盘(Hard Disk Drive,简称HDD)的特性而设计的,相比高速的CPU,磁盘的低速I/O成为制约系统性能的主要瓶颈。新型存储设备固态硬盘(Solid State Disk,简称SSD)相对于机械磁盘HDD而言,最显著的优点就是其高速随机存取能力。如能正确使用SSD取代磁盘来存储全文检索系统的倒排索引数据,将使得系统的综合性能大大提升。然而SSD具有一些完全不同于HDD的特性,若直接采用现有的索引更新策略来维护SSD上的倒排索引,不仅不能充分发挥SSD的优势,还会影响其使用寿命。首先通过实验考察了现有的索引更新策略在SSD上的综合表现,分析了它们在SSD上的不适用性:单纯的原地更新策略产生过多的随机写;基于合并的方法则产生大量额外的、意义并不大的写操作,给SSD造成过多的负荷与损耗。在实验分析的结果之上,提出了设计适用于SSD的索引策略应遵循的原则。然后,设计了一种基于SSD的混合式索引更新策略。该策略充分利用SSD的高速随机读和较为高效的半随机写特性,将所有词条根据其倒排列表的长度分为长词和短词两大类,分别采取原地更新和不合并更新策略,既避免了效率低下的小数据随机写,又不产生合并导致的过多额外写操作。与以往方法相比,实验评估证明该策略具有很好的索引更新与检索性能,且对SSD的损耗大大减少。最后,为进一步提高策略的有效性,提出在执行多次原策略后,穿插执行一次优化策略:长词索引仍原地更新,短词索引则进行合并,同时让部分中长词索引驻留内存。实验表明,优化策略能够在保证系统索引更新效率不降低的前提下,使检索性能提升32.1%,同时并不会对SSD造成过多影响。
其他文献
在树木中,叶片是其重要的组成部分,人们在识别树木或者建模时,树干仅仅起到了辅助作用,而树叶的真实感与否才是关键。目前基于点云的叶片方法在树叶建模的细节特征和逼真性方
近年来,人们对高质量视频流应用的需求不断增长,同时无线频谱资源也日益紧缺。无线接入点及移动设备的大量普及给无线网络视频流传输带来压力和挑战,也为基于无线中继网络的协作
基于轮廓信息的图像模式匹配广泛应用于工业、农业、商业和生活中的各个领域,是计算机视觉中一个重要的研究课题。其现有方法按技术路线可分为自下而上和自上而下两类。其中,自
作为基于位置应用的基础服务,室内定位系统实现了无线环境下的室内位置感知。指纹定位技术利用收集室内环境所能接收到的Wi-Fi或ZigBee信号强度应用机器学习算法来推断当前用
以太网光纤通道(FCoE,Fibre Channel over Ethernet)是一种新兴的存储区域网络协议。可将光纤通道协议帧封装在以太网帧内,通过增强型以太网进行传输,实现现有的传统局域网和存储
超分辨率重建技术是通过融合多帧同一场景的低分辨率图像得到一个更高分辨率、更清晰图像的技术,是图像增强的主要分支。但是现存算法仍存在着噪声鲁棒性不强的问题,算法难处理
随着信息技术的飞速发展和用户需求的不断增加,软件开发技术呈现出多样化的发展趋势,其中比较有代表性的编程语言是Java语言。Java语言的广泛应用,提高了软件的开发效率,但给查找
随着深亚微米集成电路系统的快速发展,人们对数字集成系统的需求也在不断提高,希望能在同一块硅片上实现更多的逻辑功能,由此可编程逻辑门陈列(FPGA)已逐渐成为集成电路设计
视频编解码一类的多媒体流计算不仅计算复杂度高,而且计算过程中需要进行密集数据访问。片上多级Cache可以缓解计算速度与数据存取速度之间的差距。但是,片上Cache空间通常非常
随着数据库技术和信息网络的快速发展,越来越多的数据被收集,发布和使用。一些基于互联网的企业也储存了很多相关的敏感隐私信息,这些信息一旦被泄漏,会给企业的发展带来严重的后