基于模糊查询的大数据分析处理系统的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:JK0803zhaozhenhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据分析技术的日渐成熟,大数据所蕴含的巨大价值已经越来越被重视。由于数据量巨大,对大数据进行分析一般是很耗费时间的。然而,在很多情况下,用户并不需要精确的查询结果,数据大概的轮廓就可以满足大部分的分析需求。本文研究并实现了一种基于模糊查询的大数据分析处理系统。该系统为用户定义了一套查询接口,这些接口支持用户进行各种聚集查询(Group By)。系统将会为用户查询返回一个模糊结果。本系统可以在秒级内返回上百G数据的模糊查询结果。利用在线聚集技术可以快速生成数据轮廓的特点,本文将在线聚集技术应用到了系统中。同时,系统中相邻查询得到的结果集是有交叠的,如果能够将系统已经处理的查询所采集到的样本和计算出的中间结果保存起来,就可以加速系统处理后面查询的速度。基于此,本文对在线聚集技术做了优化。首先,本文对数据集进行随机化处理,生成一个随机数据集,这样,就可以通过顺序扫描随机数据集来达到在数据集中随机采样的效果。然后,本文通过在线聚集技术处理用户的查询请求。在线聚集技术在生成查询结果的同时,会把已经获取的样本和产生的中间结果存储在一棵样本管理树中。相应的,用户的查询也会首先在这棵树中进行处理。当在树中查询到的结果不能满足用户的需求时,系统再从数据源读取数据。通过这种方式,在线聚集技术中采取的样本和中间结果可以有效地被多个查询使用。同时,本文还提供了一种整合多个中间结果的方法,以生成最终查询结果。最后,通过在TPC-H基准上的实验结果,验证了本文所设计并实现的系统的有效性。
其他文献
互联网的快速发展给人们的生活和工作带来了巨大的便利,但是Web上的海量信息也产生了“信息泛滥”的问题。如何构建行之有效的个性化推荐系统,快速高效地分析出用户的个性化行
互联网络的连接方式决定了网络的通信能力和效率。优秀的网络结构应该具有良好的对称性、可扩展性、递归性、通用性及通信直径小等特点,此外,当网络出现故障时,还应该具有良
认知无线电是一种智能频谱共享技术,它通过检测周围频域、时域和空域等无线电磁环境,自动搜寻并伺机动态接入授权频谱暂时空闲的频段进行通信,并避免对授权用户造成干扰,从而
随着信息时代的到来,互联网技术突飞猛进,基于Int ernet技术的网络教育逐步成为一种利用社会优势教育资源的有效途径。E-learning系统涉及多学科的研究领域,为教育带来了一次
互联网包含数量巨大的文件信息,从而搜索引擎所返回的搜索结果可能包含上千或者上百万条的记录。这样就必然需要一种排序算对搜索结果进行排序,使得人们能够在第一时间看到最符
推荐系统(Recommender Systems)是通过一定的推荐技术向用户推荐其可能感兴趣信息的一种系统,主要应用在电子商务领域。在推荐技术中,协同过滤(CF: Collaborative Filtering)技
随着网络承载量的增大和多媒体技术的发展,越来越多的多媒体视频存储于网络中,使得对视频匹配的要求越来越严格,如何快速而又准确的匹配视频,成为当前的热门话题。近年来,视
随着科技的发展和时代的进步,物联网作为一种更加便利、更加智能、无需人参与的通信方式应运而生。物联网的问世丰富了人们获取信息的手段,它将新一代的通信技术充分应用到各行
物联网被称为继计算机、互联网之后的世界信息产业第三次浪潮,全球各国纷纷将物联网产业提升到国家发展的战略高度。随着物联网的高速发展,物联网支撑系统面临着以下几方面必须