论文部分内容阅读
随着互联网技术的飞速发展,网络信息呈爆炸式增长,导致信息过载问题越来越严重,大量无关的冗余信息增加了用户获取准确信息的难度。而搜索引擎作为一种有效解决信息过载的手段,能够帮助用户高效收集和过滤可用信息,因此始终在互联网中占据重要地位。目前主流搜索引擎发展到以用户需求为中心、贴近用户意图的精确搜索阶段,开发者们不断研究新技术来试图获取需求信息。另一方面用户查询需求越来越多样化,除了传统文本搜索之外,图片搜索、语音搜索也有很大的需求空间。这些都对倒排索引结构带来了很大的挑战。作为查询请求处理更细化、更准确化的一个例子,本文主要研究距离约束条件在索引求交中的作用,即请求处理时不仅考虑多个查询词在文档中共同出现,同时考虑根据查询词间的距离赋予结果文档不同的分数,满足用户不同需求。 本文一方面通过设计新的倒排索引结构,研究在新数据结构下,既能高效地计算满足距离限制的结果文档,又能计算忽略距离限制的结果文档的方法,方便获得更多结果,赋予不同优先级,满足用户不同需求,进而减轻紧密度筛选等后续计算的压力,增大有效数据的吞吐量,提高查询结果的质量;另一方面希望通过使用并行技术等手段,对带紧密度分数计算的检索过程进行优化,提高查询处理的速度。此外,参考传统倒排索引结构下的请求处理对算法进行优化,例如在考虑距离限制的前提下,结合倒排列表长度,调整倒排列表的计算次序和计算条件,降低布尔运算复杂度等等。实验表明,本文提出的新数据结构和相关算法在带距离限制的求交算法上具备一定优势,提高了整体检索速度,同时,优化了返回结果,使更小更优的结果集参与后续计算。