海量数据中基于关键字的Top-k查询技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:dulizhi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云视讯、共享空间等新型技术的应用,存储在网络上的信息呈现爆炸式增长。信息的海量积累和动态变化阻碍了人类对它的有效利用。为了解决从海量数据中准确、有效地查询最优集合并快速返回给用户的问题,Top-k查询技术被提出。Top-k查询作为一种重要的操作,在Web搜索、数据挖掘、Multimediadatabase、网络、股票市场交易等领域得到广泛应用。   本文针对海量数据中基于关键字的Top-k查询技术进行研究工作。通过针对Top-k查询算法的数据处理量、访问开销与实时性能等方面进行研究,旨在提供面向海量数据的高效的Top-k查询算法。本文的主要工作包括:   本文提出了一种集中式环境中基于海量数据的关键字Top-k查询算法。针对现有朴素Top-k算法的不足,设计了一种基于三维分档布鲁姆过滤器的Top-k查询算法。该方法通过将数据库的属性列表与位置标识构成的三元组分别使用三维分档布鲁姆过滤器表存储,从而以较低的误判率换取较高的数据访问效率并且极大地降低了数据调度时所需要的内存消耗。经过理论分析与实验验证,表明该算法具有很高的效率和可扩展性。   本文提出了分布式环境中基于海量数据的关键字Top-k查询及优化技术。该方法首先将网络节点按照剪切规则处理,将大量与结果不相关的网络节点剪枝,然后按照抽样算法进行处理,最终按照要求获取适合的查询结果。真实数据集实验表明,该算法可以满足用户不同精度的查询要求,并且具有较好的扩展性。   基于以上研究成果,实现一种面向海量数据的查询处理引擎系统。以自主研发的数据查询处理软件VISTA为基础平台,研究面向海量数据的查询引擎系统SIGA的架构及实现方法。   综上所述,本文针对海量数据中基于关键字的Top-k查询问题提出了有效的解决方案,对提高海量信息处理的效率和实用化程度具有重要的理论意义和实用价值。
其他文献
医学诊断领域,超声成像诊断设备因为其经济实用、无侵袭、无损伤、对人体影响小、低成本、适应性广等优势,在临床诊疗中得到了广泛应用。随着计算机在生活中的普及与软硬件资源
随着红外热成像技术的快速发展,红外成像技术在人体目标检测与跟踪中的应用与研究越来越成为现代智能视频监控以及夜间交通导航等诸多领域研究热点课题。红外独特的成像原理
随着计算机网络和多媒体技术的快速发展,快速有效地进行海量视频数据检索已成为一个亟需解决的问题。视频数据库索引的建立是视频检索的重要基础,基于视频内容分析的自动视频标
RAID具有高带宽、大容量、高可靠性和易于管理的特性,而广泛应用于存储系统中。随着云计算的发展,如何实现RAID的高效在线扩展成为研究热点。针对已有的RAID-4扩展方法采用循环
经过对车载影音导航系统在国内外以及高校的研究现状进行分析,研究了基于嵌入式计算机技术为核心的嵌入式车载影音导航系统的原理和构成。结合项目的实际需求,针对合作企业产品
随着遥感技术的发展,海洋遥感影像数据以TB级/天的规模增加。而云存储环境的超大存储空间、价格低廉、部署方便等优点,为海量海洋遥感影像的存储和管理带来机遇,越来越多的用户选择将海量影像数据存储移植到云中。海洋遥感影像具有大批量、大尺度和高敏感等特性,实际应用中海洋遥感影像中的港口、近海岸以及海岛信息是影像数据的核心,也是影像数据变动的敏感区域。因此敏感区影像的安全与准确对海洋环境变化、资源配置、灾害
伴随着信息技术在各个领域的蓬勃发展,如何进行快速、有效的个人身份验证,已逐渐成为人们关注的焦点。人脸识别相比于其他生物特征识别技术具有很多独特的优势,研究人脸识别可以
软件新技术的飞速发展和网速的不断提高对流量数据检测提出更大的挑战,如何在日益复杂的网络环境下进行流量数据检测已经成为目前一个重要研究课题。本文在现有研究成果的基础
电子商务在企业的发展、人们的生活中产生了重要影响。电子商务模式,是指企业在互联网的条件下开展电子商务,为了满足企业目标顾客的需求以及为实现盈利目标而采取的一系列商业
近年来,在网络时代的技术背景下,互联网技术在企业和用户需求的合力推动下迅速蔓延。流媒体作为代替普通文字和图片的网络媒介,在互联网中得到了爆发式的推广和应用。在现有