基于图的大规模RDF数据查询算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:liongliong571
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源描述框架(Resource Description Framework,RDF)可以表达丰富的语义信息,被广泛地应用于知识图谱的元数据描述之中。随着语义网信息抽取技术的发展,单个RDF数据集已经达到数十亿三元组的规模。SPARQL是万维网联盟针对RDF数据查询提出的标准查询语言,基于SPARQL的RDF查询问题可以转化为子图同态问题,该问题是一个NP完全问题。此外,对于包含噪声的SPARQL查询,基于子图同态的精确查询方法无法得出答案,如何在合理时间范围内返回用户满意的Top-k查询结果,成为普通用户最为关心的一个问题。因此,如何高效地在大规模RDF数据上执行SPARQL查询是知识图谱数据管理中的一个有挑战性的问题。针对以上问题,本文做了如下工作:1)针对无噪声的SPARQL查询,提出一种按照约束大小排序的查询图节点匹配策略,在此基础上给出一种基于树搜索的RDF查询算法RI-Triples。该策略在匹配过程中提前引入更多约束以修剪不匹配的分支,从而避免了使用复杂的预测剪枝规则,有效地减少了搜索空间并提高了查询效率。在LUBM6M,LUBM13M和LUBM33M数据集上,RI-Triples的总查询时间分别为g Store的0.59,0.54和0.74倍,RDF-3X的0.24,027和0.34倍。在Wat Div10M数据集上,对于雪花查询,RI-Triples的总查询时间分别为g Store的0.028倍,RDF-3X的0.24倍。实验结果表明RI-Triples具有良好的查询性能。2)针对无噪声的复杂SPARQL查询和包含噪声的SPARQL查询,采用一种统计显著性方法对查询图节点及其候选节点的结构、邻居节点标签等属性进行相似性评估,从而给出一种基于邻居向量的RDF Top-k查询算法NBRQ。该算法在扩展匹配过程中充分考虑候选节点的h-hop邻居节点,以提高查询结果的相似性。实验采用LUBM5M数据集,在无噪声的复杂SPARQL查询中,当变量节点的比例为5%~27%时,NBRQ算法F1分数得分范围为95.90%~82.40%;在包含噪声的SPARQL查询中,当噪声的比例为14%~33%时,NBRQ算法F1分数得分范围为95.70%~90.30%。实验结果表明NBRQ算法对于包含噪声的SPARQL查询具有内在的鲁棒性,能有效处理大规模RDF数据近似查询问题。
其他文献
5G新空口(New Radio,NR)系统作为第五代移动通信技术,支持增强型移动宽带,大规模机器类型通信以及超可靠和低延迟通信三大类型业务场景。为了满足三大应用场景业务需求,NR系统帧结构在4G基础上引入了灵活的参数集配置,具备用户级配置能力。小区搜索与测量作为NR终端与网络进行通信必须经历的关键过程,其设计在长期演进(Long Term Evolution,LTE)系统基础上进行了优化并引入了许
以复杂性和复杂现象为研究对象的复杂性科学正在兴起,其超越传统科学的思维范式逐渐影响着自然科学和社会科学。与此同时,由于数字网络及新媒体的发展,人类正步入信息社会。作为传播学核心概念的“信息”,正重新成为这个时代的核心议题。然而,传播学对“信息”概念的研究依旧停留在香农的信息论,主流传播学需要新的思维范式和理论指导为“信息”概念作出适应于新时代的补充和修正。正是基于这样的背景,本文从学科的横向视角以
滑液囊支原体(Mycoplasma synoviae,MS)是危害家禽养殖业的重要病原之一。家禽感染后呈长期带菌状态,导致生产性能下降,造成严重经济损失。目前针对MS抗体的检测方法主要有血凝抑制试验(Hemagglutination inhibition test,HI)及酶联免疫吸附试验(Enzyme-linked immunosorbent assay,ELISA)等方法。HI 试验操作简便、
在共建“一带一路”重大倡议和构建“人类命运共同体”重要思想的指导下,中缅泰老(中国、缅甸、泰国、老挝)四国领土间互相接壤,并以澜沧江—湄公河为联结纽带,四国间在政治
在以往钻井施工中,平台井组一般不超过10口井,库里泡平台中4个大平台布井均在20口以上,井眼轨迹防碰难度大;平台布置在人工岛上并与松花江相连,安全环保风险高,钻井液重复利用难度大;建井周期长,第一轮井平均建井周期为10.14天。如按此速度施工将不能按要求完成任务。因此及时开展“葡47区块大平台定向丛式井优快钻井”的研究,确保油田开发需要。本文针对以上难题,开展了生产方式优化研究,以推行“工厂化”施
在我国,随着体育产业的发展,国家体育总局与省体育局下发关于运动休闲特色小镇的文件,特色小镇逐渐进入人们的视野,近几年发展的尤为炙手可热。在这样的背景下,运动休闲特色
自改革开放以来,我国大力发展经济,伴随着社会主义市场经济体制的建立,改革开放程度的深化,企业所处的市场环境竞争更加激烈。目前国内市场各行各业都注重提升科技创新水平,改革原有管理模式、运营方式等,越来越多的企业注重采用集成供应链管理模式。企业基于供应链管理模式,对各自经营的各类支撑系统进行优化升级,以实现在有效满足顾客需求的基础上达到低成本、高效率的运营与企业的长远健康发展。2017年中国移动通信集
刘应时,字良佐,自号颐庵居士,四明(今属浙江宁波)人,是主要活动于南宋中晚期的隐逸诗人。其人聪敏勤奋,博览群书;酷爱诗歌,寄兴澹然;隐居山林,甘于清贫。同时期的著名诗人范成大、陆游、杨万里皆盛赞其诗,陆游、杨万里皆为其诗集《颐庵居士集》作序。《全宋诗》共收录刘应时诗歌103首。本文以刘应时《颐庵居士集》为研究对象,选取了刘应时部分具有代表性的诗歌进行笺注,再在全面理解其诗歌内容的基础上对其人其诗进
在无人机编队追踪地面移动目标的过程中,无人机通过雷达、视觉等传感器只能探测到目标相对于自身的运动状态。无人机编队要想准确估计出目标的运动状态,就必须准确估计出自身的运动状态。将编队中的无人机视为移动的传感器节点,将编队的通信链路视为传感器网络的通信拓扑,论文对无人机编队目标追踪过程中的状态估计问题进行了研究。提出了一种切换通信拓扑条件下的分布式信息加权卡尔曼一致性滤波算法,并给出了一种改进的低通一
太原国际马拉松赛事历经十年之久,于2019年正式成为国际田联路跑金标赛事,一举跨入“双金俱乐部”,这与太原国际马拉松赛事组织间的合作运营模式具有一定的关联性。其合作关