大规模语义数据分析系统

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:tomyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义万维网的迅猛发展,越来越多的数据以RDF的形式发布出来,如何对这种语义数据进行存储、管理、查询以及有价值信息的挖掘,已经成为一个热门的话题。传统的三元组库设计实现了对RDF数据的存储,并且支持结构化查询语言如SPARQL的执行操作。但是,其设计基本上是单机的,而单机三元组库的处理能力毕竟是有限的,已经不能满足增长速度如此迅猛的RDF数据。另一方面,以Hadoop为代表的开源的分布式系统,提供了大规模数据的存储系统HDFS,以及分布式计算框架MapReduce,在数据分析领域取得了很大的成就。本文的研究重点就是结合这两种系统的优点,来提供一种可扩展的、大规模且有效的语义数据分析服务。近几年来,越来越多的研究工作都把重点集中在Hadoop与RDF存储查询操作的结合中,如利用迭代式MapReduce函数来实现SPARQL的查询,基于MapReduce的语义数据的推理等。基于相关工作的调研,本文设计实现了一个大规模语义数据分析系统——HadoopRDF,来实现对RDF数据的分析操作。首先,搭建一个基于Hadoop的分布式集群,作为该系统的基础平台,集群中的每个数据节点将安装一个传统三元组库(如Sesame),作为底层的RDF的存储工具以及支持SPARQL的执行。其次,设计实现一种策略将需要存储的原始RDF数据集分割成若干个数据子集,然后将每个子数据集分别存储到一个节点的三元组库。然后,在执行SPARQL的分析性任务的过程中,将原始的查询同样分割成若干子查询,根据策略,每个子查询只与集群中某一个特定节点的三元组库中所存储的RDF子数据集相关,于是每个子查询都将会并行地在不同的节点上执行。再然后,设计实现了一系列的MapReduce任务,这些对应于SPARQL的相应操作,对每个节点返回的子查询结果进行处理,来得到最终的查询结果。最后,一些基于统计操作的分析性的任务操作,也将被设计成MapReduce任务来实现。本文设计的系统同时获得了分布式系统Hadoop的大规模数据分析能力和规模可扩展能力,以及传统三元组库对复杂的结构化查询的良好支持能力。在BSBM这个标准的用来测试RDF存储和查询能力的数据集上,笔者做了大量的实验。从实验结果上看,HadoopRDF是一个可靠的、可扩展的、有效的语义数据分析系统。
其他文献
近年来,云计算因其动态分配、弹性扩展、资源共享、按需使用按需付费等特点,吸引了越来越多的关注。云计算不仅改变了当今IT基础设施的架构模式,也改变了云服务使用者获取IT
随着网络技术的飞速发展,人类的各种行为不可避免的将与Internet网络以及信息处理技术发生关系。在此潮流之下,传统的保密与认证方式,已难以应付日益复杂的电子交易和信息保
地理信息系统(Geographical Information System,简称GIS)以数字化的形式反映人类社会赖以生存的地球空间的现实和各种空间数据的变迁以及描述这些空间数据特征,支持空间数据及
面向对象的开发方法是当今的主流,但是同时不得不使用关系型数据库,将两者更好地结合起来将在很大程度上加快软件的开发。对象/关系数据库通过将面向对象程序设计中的对象映射
随着计算机网络的不断发展,全球信息化已成为人类发展的大趋势。但由于计算机网络具有连接形式多样性、终端分布不均匀性和网络的开放性、互连性等特征,致使网络易受黑客、骇客
分布式人工智能是人工智能的一个分支,已经成为当前的研究热点。而对分布式人工智能最为有效的求解方式是基于Agent技术的建模。Agent建模主要是设计合适的Agent结构,通过学习
学位
随着科技的发展,新一代的计算机,无论计算能力和计算速度都比旧的计算机优越。但人类对高性能计算的需求,也不断提高。除了增强处理器本身的计算能力外,并行处理是一种提高计算能
随着信息技术和互联网技术的快速发展,嵌入式系统已广泛应用于消费电子和通信领域;嵌入式浏览器已成为最主要的应用软件,甚至有可能是唯一的、直接支持的应用软件。作为基于
随着P2P技术应用日益增多,加强对该项技术的研究已成为当务之急。本课题基于目前理论架构相对比较完整的P2P平台技术JXTA,研究了如何在该平台下进行应用开发,并讨论了P2P技术普