搜索引擎中倒排列表距离约束求交算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:liwanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络信息呈爆炸式增长,导致信息过载问题越来越严重,大量无关的冗余信息增加了用户获取准确信息的难度。而搜索引擎作为一种有效解决信息过载的手段,能够帮助用户高效收集和过滤可用信息,因此始终在互联网中占据重要地位。目前主流搜索引擎发展到以用户需求为中心、贴近用户意图的精确搜索阶段,开发者们不断研究新技术来试图获取需求信息。另一方面用户查询需求越来越多样化,除了传统文本搜索之外,图片搜索、语音搜索也有很大的需求空间。这些都对倒排索引结构带来了很大的挑战。作为查询请求处理更细化、更准确化的一个例子,本文主要研究距离约束条件在索引求交中的作用,即请求处理时不仅考虑多个查询词在文档中共同出现,同时考虑根据查询词间的距离赋予结果文档不同的分数,满足用户不同需求。  本文一方面通过设计新的倒排索引结构,研究在新数据结构下,既能高效地计算满足距离限制的结果文档,又能计算忽略距离限制的结果文档的方法,方便获得更多结果,赋予不同优先级,满足用户不同需求,进而减轻紧密度筛选等后续计算的压力,增大有效数据的吞吐量,提高查询结果的质量;另一方面希望通过使用并行技术等手段,对带紧密度分数计算的检索过程进行优化,提高查询处理的速度。此外,参考传统倒排索引结构下的请求处理对算法进行优化,例如在考虑距离限制的前提下,结合倒排列表长度,调整倒排列表的计算次序和计算条件,降低布尔运算复杂度等等。实验表明,本文提出的新数据结构和相关算法在带距离限制的求交算法上具备一定优势,提高了整体检索速度,同时,优化了返回结果,使更小更优的结果集参与后续计算。
其他文献
计算技术的健康发展需要与之相适应的计算模式。随着计算技术、通信技术和传感器技术的飞速发展,迫切需要一种全新的计算模式——普适计算。普适计算的目的是更完善和更方便
近年来,网上交易平台发展迅猛,密码被窃取后造成重大经济损失的案件却层出不穷,屡见不鲜。用户普遍具有密码保护意识,通常也都使用了安全软件,可是却在不知不觉中被盗走密码,主要原
近年来,大气环境实时动态监测系统采集了大量的数据,这些海量数据背后隐藏着大量的有用知识,研究者们希望通过对所采集的大气环境监测值的深层次分析,挖掘出其中潜在的有价值的信
随着信息技术和互联网应用的迅速发展,信息安全逐渐成为计算机领域一个重要的课题。图像加密是信息安全中一个重要的方面。被传输的图像往往包含着隐私或者机密信息。几十年以
多媒体技术和网络技术的日益发展以及人们对于个人隐私和数字产品版权保护的重视使得信息隐藏获得了巨大的发展。信息隐藏作为新型的信息安全技术,不仅能给数字产品的版权保
蛋白质结构预测问题是分子生物学提出的基本理论性问题。求解该问题不仅在生命认知科学理论上具有重大的理论意义;而且,在疾病治疗和药物研究方面也具有重大的现实意义。应用
传统企业应用集成技术在解决系统的可扩展性、灵活性,加快进度和减少成本方面有很大局限。采用面向服务体系(SOA)可以克服传统EAI技术的不足,构建的集成框架易于扩展、易于维护
连接程序是CPU编译工具链中非常重要的一个环节,开地发一个新的CPU必须也要开发相应的连接程序。在开发64位LX-1164安全微处理器连接程序过程中,本文深入研究了连接程序的原理
基于P2P的流媒体技术是一项非常有前途的技术,该技术有两方面的优点:不需要互联网路由器和网络基础设施的支持,因此性价比高且易于部署;流媒体用户不只是下载媒体流,而且还把
随着信息技术的发展,特别是计算机网络的普及,给我们日常工作、学习、管理带来了很多便利。但是网络的发展都是逐步形成的,网络中现存的各个子系统之间存在着各种差异,部署平台的