论文部分内容阅读
随着云视讯、共享空间等新型技术的应用,存储在网络上的信息呈现爆炸式增长。信息的海量积累和动态变化阻碍了人类对它的有效利用。为了解决从海量数据中准确、有效地查询最优集合并快速返回给用户的问题,Top-k查询技术被提出。Top-k查询作为一种重要的操作,在Web搜索、数据挖掘、Multimediadatabase、网络、股票市场交易等领域得到广泛应用。
本文针对海量数据中基于关键字的Top-k查询技术进行研究工作。通过针对Top-k查询算法的数据处理量、访问开销与实时性能等方面进行研究,旨在提供面向海量数据的高效的Top-k查询算法。本文的主要工作包括:
本文提出了一种集中式环境中基于海量数据的关键字Top-k查询算法。针对现有朴素Top-k算法的不足,设计了一种基于三维分档布鲁姆过滤器的Top-k查询算法。该方法通过将数据库的属性列表与位置标识构成的三元组分别使用三维分档布鲁姆过滤器表存储,从而以较低的误判率换取较高的数据访问效率并且极大地降低了数据调度时所需要的内存消耗。经过理论分析与实验验证,表明该算法具有很高的效率和可扩展性。
本文提出了分布式环境中基于海量数据的关键字Top-k查询及优化技术。该方法首先将网络节点按照剪切规则处理,将大量与结果不相关的网络节点剪枝,然后按照抽样算法进行处理,最终按照要求获取适合的查询结果。真实数据集实验表明,该算法可以满足用户不同精度的查询要求,并且具有较好的扩展性。
基于以上研究成果,实现一种面向海量数据的查询处理引擎系统。以自主研发的数据查询处理软件VISTA为基础平台,研究面向海量数据的查询引擎系统SIGA的架构及实现方法。
综上所述,本文针对海量数据中基于关键字的Top-k查询问题提出了有效的解决方案,对提高海量信息处理的效率和实用化程度具有重要的理论意义和实用价值。