【摘 要】
:
随着人们对数据查询、分析的要求越来越高,传统的基于磁盘的关系型数据库已不能完全满足要求,而内存因为其远高于磁盘的访问速度,能极大降低数据的存取延迟而越来越多的被作
论文部分内容阅读
随着人们对数据查询、分析的要求越来越高,传统的基于磁盘的关系型数据库已不能完全满足要求,而内存因为其远高于磁盘的访问速度,能极大降低数据的存取延迟而越来越多的被作为数据库的存储介质。而基于列优先的存储方式因为有更高的压缩率和在数据查询任务中更小的中间数据而被广泛应用在内存数据库中。本文针对内存存储与磁盘存储的不同,以及列优先存储和行优先存储的不同,设计了一套基于内存的分布式环境下的列式数据库上的查询优化方法,其中包括:1、将传统关系型数据库中的基于规则的查询优化与列式存储模式相结合,采用选择下推、条件化简等一系列操作对逻辑查询树进行有针对性的变形,使之具有更少的算子,并且在分布式环境下具有更小的数据传输量。2、对涉及到多表join的查询,结合实际应用环境,采用非随机的分层动态规划算法计算最优的连接顺序,并在实现中提供良好的选择策略实现接口,使之在不同的应用环境下可以使用不同的算法提供更适合的join路径选择方案。3、在查询中结合数据片的存储位置、网络开销、节点负载等信息,综合计算预估多种查询方案的代价,分别采用贪心算法和遗传算法两种算法优化执行计划在分布式集群上的执行策略,提高查询的实时响应能力。通过在已有的内存数据库系统GoldFish上实现该查询优化模块,并对比spark-sql等已有开源分布式数据库系统,我们发现带有查询优化模块的GoldFish系统在内存使用率,查询延迟等性能指标上均有很好的表现。
其他文献
经过近五十年的发展,人脸识别技术已有了长足的进步,并成功应用到许多领域。但当一些如光照、表情、姿态等外界条件不理想时,算法性能下降较快。因此,如何降低这些干扰因素对
CRM (Customer Relationship Management,客户关系管理)可以泛指企业获得和维持可带来业务收益的用户群的各种技术平台,在国外已相当成熟,而在国内CRM行业还处于成长时期,随
手写体汉字识别在残疾人无障碍阅读、文献自动翻译、文献自动录入、金融单据的处理、快递包裹和信件的分拣等领域有着广阔的应用前景,帮助使用者自动录入文字,节省劳动力成本
随着社会的发展和科技的进步,人们的生活朝着数字化、智能化的方向发展,为满足人们日益增长的对现代科技成果的需求,智能小区随之兴起。但是在其发展过程中,设备和平台多样性
软件测试是软件工程学科的重要组成部分,在实际的软件开发过程中,软件测试所发挥的重要作用已得到软件开发人员的广泛认同。软件测试以发现软件中潜藏的缺陷和错误为目的,确
医学图像三维可视化是计算机可视化领域的一个重要研究分支,是当前研究的一个热点。医学图像三维可视化技术提供更多的诊断信息,辅助医生进行病情诊断和手术指导,提高了医疗
可重构计算是具备设计后芯片定制能力和能在很大程度上实现软件算法到硬件计算设备空间映射特点的计算机组织结构。作为一种新型的数字电路设计概念,可重构计算兼容了硬件计算
不确定数据广泛存在于文本分析、信息检索、传感器网络和射频识别等领域中。随着数据采集手段的发展,客观世界中普遍存在的数据不确定性已经逐渐被人们所认识。不确定数据查
对象存储系统采用了一种新的接口——对象接口,有效综合了块接口的快速直接访问、存储设备可扩展的交换结构与文件接口的安全性、跨平台数据共享等优点,同时对象接口能够提供比
Web2.0技术的日益盛行,随之而来的便是更加丰富的新型数据和大量网络用户。如何利用标签特性,结合数据挖掘的相关技术,挖掘用户的兴趣信息,从而更好地理解用户、发现用户的行