【摘 要】
:
随着微博的飞速发展,日益增长的微博数据规模和用户查询请求对微博实时搜索的性能提出了更高的要求,寻找高效且稳定的微博实时索引方法来提高微博实时搜索的性能成为当务之急
论文部分内容阅读
随着微博的飞速发展,日益增长的微博数据规模和用户查询请求对微博实时搜索的性能提出了更高的要求,寻找高效且稳定的微博实时索引方法来提高微博实时搜索的性能成为当务之急。传统的索引方法无法适应索引数据频繁更新的场合,而且目前流行的微博索引方法存在索引碎片以及索引合并开销过大的问题,导致微博实时搜索在查询与更新微博时需要消耗大量的时间。为了解决上述问题,一种面向微博实时搜索的自适应索引方法得以提出。该方法采取了一种动态调节的日志索引结构LS-AMS,并为索引结构设计了一种自适应的合并策略。LS-AMS由一个倒排索引缓存和一个大小呈指数增长的动态调节的索引包序列组成。索引包采取自适应索引合并策略来管理包里的倒排索引,该策略能降低索引合并的开销并且能基于环境因素比如用户查询请求的到达速率和新微博的产生速率等的变化来自适应地调节索引结构,降低多变的环境因素对查询性能的影响。与目前流行的实时索引方法采取的分段索引结构和日志索引结构进行性能测试的结果显示,LS-AMS在不增加索引方法更新时间的情况下,在查询时间上比这两种索引结构降低了至少8%。同时LS-AMS受到查询请求到达速率的变化影响较其他索引结构更小。实验表明,该自适应索引方法对微博实时索引的查询性能及稳定性的提升有很大的帮助。
其他文献
现有的数据库性能测试方法,没有关注数据库内部数据量对数据库性能的影响。针对这一不足,本文探索了数据库老化测试方法,利用该方法可获得数据库内部数据量对性能的影响程度
肝脏CT(Computed Tomography)图像是诊断肝脏相关疾病的主要手段。肝脏CT序列图像中的血管分布状况是诊断疾病、制定治疗方案和进行手术规划的重要依据。通过图像分割技术自
在互联网飞速发展的今天,随着办公自动化技术在政府和企业中的大量应用,电子信息的安全性成为电子政务中的一个研究热点和难点。电子文档作为存储和交换信息的重要载体,如何
规则引擎起源于基于规则的专家系统,是专家系统的一个分支。随着业务的不断变化,企业级应用要求系统的业务逻辑随时做出调整。传统的方式是把业务逻辑在程序中实现,这样如果业务
文本的情感倾向分析即对于人们关注的一个问题或者对象,通过自动化工具,对网络中的评论性文章进行自动分析,判断文章的情感倾向,获得有价值的信息,并且归纳、整理出不同的态度和立
Web服务标准的出现有效地解决了异构信息系统之间的互操作问题。面向服务的体系结构(SOA)提出了基于Web服务的面向系统集成的方法论,指导实现异构系统之间的整合与协同。企业
排序作为网络分析中的一种关键技术,主要用于筛选和发现更多有价值的信息,已成为互联网公司和学术界都十分关心的课题之一。传统的排名方法集中在同构网络的单一因素分析上,
电子邮件已成为互联网上最重要的通信方式之一,随之也带来了垃圾邮件的泛滥。各种垃圾邮件过滤技术发展迅速,但它们依然存在着不少缺陷,其中最主要的两点是:没有完全面向用户
随着近年来互联网技术的不断发展,以及各个企业对网络的依赖性逐渐增大,为了获得更多的市场份额和利润,国内各大电信服务商都逐渐从第一阶段的“资源竞争”转向到第二阶段的“业