基于Maze的增量实时索引系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:aigeng87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,互联网高速发展,网络应用已经从传统的网页浏览、电子邮件、IM即时消息,逐渐多元化。带宽的扩大以及技术的进步可以使得用户从互联网上获取更多的信息,互联网用户逐渐不再满足于被动的获取资源,而文件共享模式的出现,使得互联网上的内容更加多样,也使得互联网对于人们来说更有活力,于是文件共享的地位越来越重要,而传统的C/S模式受限于服务商提供的服务器负载因素,逐渐无法满足用户对于下载速率的需求,因此P2P逐步成为最重要的文件共享以及下载方式。   Maze是教育网中最大的p2p文件共享系统,拥有百万的注册用户,几万用户同时在线,随着用户量增大,索引了几亿个文件,这也导致了Maze中文件索引建立的周期延长,搜索结果的实时性受到了很大的影响。经过统计,Maze的索引一次更替周期在20小时左右,对于一个热门的文件,从出现在Maze系统中到被其他用户检索到,平均延时10小时左右。这部分文件虽然数量很少,但是绝大部分是热门资源,检索的延时使得用户体验很不友好。   本文分为两个部分:   第一部分对Maze系统进行了分析,对Maze的检索系统现状进行了总结,分析了Maze检索系统存在的主要问题。   第二部分首先介绍了Maze增量索引初步的设计思想。接下来详细介绍Maze增量索引系统的设计与实现,并且通过测试数据对Maze增量索引系统性能做了评估。  
其他文献
在分布式计算背景下,作者参与的多个项目与在线文档处理、数据备份相关。本人在项目中承担两个任务:改进文档的版本备份算法和优化大文件在广域网中传输。从中产生的两个原创性
瓦斯爆炸是我国煤矿生产中最常见的灾害事故,目前治理瓦斯爆炸的主要手段是瓦斯预测。专家系统具有适应性强、可靠性强、成本低、响应快等优点,并具有持久性、复合性和解释说
目前,高校校园中信息(如教学、就业)的发布、获取主要通过校园网、电话等形式,其缺点是缺乏移动性、实时性,而传统的短信发送方式只是手机终端之间的文本复制,无法根据用户的
传统软件开发过程以概要设计和编码为驱动,存在着大量重复性开发。日益复杂的系统结构、需求的不断变更、平台之间兼容性所导致的复用性、互操作性差等问题,使得传统的软件开
近年来随着云计算的迅速发展,“计算即服务”的理念与客户机/服务器(C/S:Client/Server)计算模式得到越来越广泛的应用。计算资源通过在不同层次上的封装,以服务的形式提供给最终
学位
目前软件技术在生产环境中的应用越来越广泛,在为我们提高生产速度的同时也为我们带来了前所未有的难题,过于臃肿的软件系统和日益变化的需求是目前软件面对的重大挑战。如何
大气CO2作为主要的温室气体,对温室效应及气候变化有着重要的影响,研究大气CO2变化规律以控制其排放,具有重要的意义。但是,由于CO2在大气中的浓度和梯度都比较低,导致对它的
学位
随着信息化的发展,海量存储的需求日益增长。提供海量存储数据管理功能的机群文件系统正受到学术界和产业界的广泛重视。由于海量存储应用具有超大规模文件管理和超大规模数据
Windows Rootkit最早可追溯到DOS时代的木马程序,当时DOS系统的安全机制本身很不完善,因此Rootkit作为恶意软件的辅助工具并未受到攻击者的重视。1999年,以GregHoglund发布NT Ro
文本相似度计算主要是通过建立算法模型计算两个或者多个文本信息之间内容、语法、结构的相似程度,它是实现文本信息处理的一项关键技术,很多重要的研究应用都与它相关。文本