基于Mapreduce框架可扩展数据索引的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liuxuedong0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,生活生产中会产生海量的数据,其中移动互联网、物联网和科学研究等领域会产生结构更为复杂、体量更为庞大的数据。虽然传统的数据库技术日益成熟,但在解决数据量大、数据结构复杂等问题时稍显不足,其扩展性和容错性也面临着挑战。而云计算技术在易扩展性和高可用性等方面的优势正好可以弥补传统数据库的不足,因此Google提出的Mapreduce等技术得到了广泛的使用。随着研究和实践的深入,Mapreduce框架的一些问题逐渐显现出来,例如Mapreduce框架不支持数据索引,导致复杂查询类型相关计算的效率低就是问题之一,也是近年来研究的热点。一些研究工作在特定领域取得了不错的效果,但是它们都局限于解决特定的数据查询问题,导致数据索引方法不具备可扩展性;并且依赖于Hadoop技术而不是Mapreduce框架本身,因此不具有平台独立性。本文对Mapreduce框架的分布式数据索引进行深入的研究,为研究目标建立了模型,总结现阶段相关研究的不足,分析本次工作的难点,设计实现了一种基于通用搜索树和Raft算法的可扩展数据索引方法即MRIndexer。使得MRIndexer具备索引结构可扩展性、高效的查询效率、高可用性和平台独立性。本文主要工作如下:首先,将MRIndexer设计为非侵入式的索引服务,将Mapreduce框架与通用搜索树相结合,设计实现了在分布式文件系统和内存中建立、使用和更新维护索引的算法,通过向用户暴露接口的方式,实现底层索引结构的可扩展,使得用户可以根据查询计算的特点实现例如B+树、R树等不同的底层索引结构,同时建立了多个索引结构配合工作的机制,使得MRIndexer可以完成诸如多维查询等复杂的查询计算任务。其次,通过对Raft算法的研究,设计实现了MRIndexer各模块间的消息传递机制,保证数据索引服务的一致性和高可用性。在此基础上结合Mapreduce框架的特点,借鉴传统数据库和分布式计算研究的相关经验,对MRIndexer提供索引服务的方法进行优化,设计实现了一种高效的内存管理及查询优化方法,保证MRIndexer可以长时间连续提供高效稳定的索引服务。最后,在Hadoop和MPI+Phoenix两个Mapreduce环境中测试MRIndexer原型,使用R树和B+树索引结构,设计多种实验,进行多组横向和纵向测试。实验结果表明MRIndexer在查询效率、索引可扩展性、高可用性和平台独立性四个方面上具有良好的表现,证明本文设计实现的数据索引方法具有良好效果。
其他文献
由于互联网中路由和交换设备的封闭特性,使得网络创新的步伐十分缓慢。SDN(Software Defined Network,软件定义网络)通过解耦网络的控制和转发,采用基于流表的交换机和集中式
在下一代移动通信网络的关键技术研究中,密集组网是公认的提升网络容量的有效手段之一。基站的密集部署会直接造成系统能耗的快速增长,考虑到网络运营的开销,通信网络的能耗
在工业自动化飞速发展的当代,各种控制方法层出不穷,但在实际工业现场中,常规PID控制仍然占据主导地位。其控制品质对被控对象的变化不太敏感,非常适用于工业生产现场。但是,
随着医疗信息化的不断普及,医疗数据的规模也在不停增长。人们经过对医疗数据的剖析和研究,了解了医疗数据之间的内在联系,从而为提升医疗服务的质量提供数据支持。但医疗数据中含有很多的隐私信息,如何保护隐私信息成为限制医疗数据分析的重要问题。本文首先提出了一种基于同态加密的医疗数据隐私保护方案,由信息采集端、边缘服务器、云计算服务器和用户端组成。在该方案中,信息采集端对医疗数据进行采集,并利用公钥加密方案
自从计算机技术得到长足发展,人类获取和存储信息的能力快速增强。这些信息来源复杂,且常常包含着噪声信息和大量冗余信息,利用这些复杂的信息建立可靠的模型一直是机器学习
现代投资组合理论是由著名的诺贝尔经济学奖获得者——Markowitz构建的均值—方差模型衍生而来的。此后,许多学者尝试了各种方式进行模型的改进和求解。不管是构建哪种投资组
随着无线通信技术的发展,人们对数据传输速率、服务种类、网络覆盖范围以及可靠性等通信性能参数的要求日益提高。而干扰问题是阻碍网络性能进一步提高的关键因素,因此有效的
本文的目的是对本实验室研发的一款C程序静态分析工具进行效率优化。为了检测场景复杂的漏洞,工具采用了路径敏感和过程敏感的分析策略。该策略使检测路径数随代码规模的增长
在工业控制尤其是化工控制领域,因控制过程中变量间存在的耦合作用,普通的控制算法很难有效的控制。为满足控制效果,工业控制过程的输入、输出往往都存在约束,为此具有解耦性
大规模多输入多输出(Multiple-Input and Multiple-Output,MIMO)技术因具有能显著提高频谱效率和用户体验速率等优点,被认为是未来5G中的一项关键技术。但由于不同小区对同一