RDF大图数据的分布式子图匹配查询研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xmuppdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱领域的不断发展,大量的数据以资源描述框架(RDF)形式发布出来,RDF图的规模往往可以达到数亿条边,超过了单机的处理能力,因此如何在这种大规模的RDF图上进行高效的数据查询变得尤为重要。本文设计两种高效的RDF图上分布式子图匹配查询方法。第一种方法基于MapReduce高效回答RDF图上的子图匹配查询,首先利用RDF数据内嵌的语义和结构信息作为启发式信息将查询图分解为星形的集合,可以在更少次迭代内得到查询结果。同时本文的分解算法给出中间结果较少的星形匹配顺序,基于此顺序,每轮MapReduce操作通过连接操作匹配一个新的星形,直至产生最终的答案。同时通过布隆过滤器编码顶点的邻居信息减少数据输入,并推迟笛卡尔积提高查询性能。本文的另一个方法基于Pregel模型分布式处理RDF图上的子图匹配查询。将最短路径将SPARQL查询图转化为一个变种的SP-Tree,利用Pregel处理SPARQL查询,并提出两个优化策略来提高算法的有效性。一个技术通过RDF属性过滤本地计算和消息传递,另一个优化技术推迟笛卡尔积减少查询匹配过程中的中间结果。最后,在标准合成RDF数据集和真实RDF数据集上进行大量的实验评估。实验结果表明本文所提基于星形分解的分布式算法SDec和基于Pregel的SPTree算法能够高效回答SPARQL查询,查询时间比SHARD和S2X算法的查询时间平均提高一个数量级,且优化算法的查询时间与基本算法相比显著提高。
其他文献
软件服务外包行业可以给中国经济发展提供技术保障和持续动力,也是中国十三五规划重点发展的产业。自20世纪九十年代开始,中国软件服务外包行业高速发展,取得了令人瞩目的成绩。
数字水印技术是实现数字版权认证和完整性保护的重要手段。鲁棒水印和可逆水印是两种重要的数字水印类型。其中,鲁棒水印与可逆水印相比具有更高的鲁棒性和安全性。而可逆水
在富营养化的湖泊与水库中蓝藻常成为优势种类。由蓝藻过度繁殖而形成的水华严重影响了水质和环境。浮游动物在湖泊中是水生生物中的重要组成部分,浮游动物中的一些种类可以
随着全球经济和汽车电子技术的快速发展,汽车的产销量不断增长,伴随而来的是交通事故、交通拥挤、环境污染以及能源消耗等问题也在不断加剧。为了防止这些问题不断恶化,节能环保和智能化热潮得到了兴起,新能源汽车以及车辆的主动安全技术已经成为了当今汽车技术的发展方向。自适应巡航控制作为安全辅助驾驶技术,是汽车主动安全技术的重要组成部分。然而自适应巡航控制系统的研究大多数集中在燃油车,电动汽车控制系统方面的研究