基于知识图谱的地点检索技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:aridan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日渐普及,信息检索成为当今生活中不可或缺的部分,其中与空间信息相关的地点检索更是用户日常检索中的重要组成部分。然而随着数据量的急剧增大,传统基于文本的关键词检索方式在检索速度和准确度方面都受到了巨大的挑战。为了解决大数据背景下检索速度和检索准确度较低的问题,知识图谱应运而生。基于知识图谱的地点检索以用户语义为核心,将知识抽象为实体,并利用用户的查询时间、空间位置等信息试图理解用户在某个时刻某个地点的查询语义和期望需求,从而有效的提升地点检索的速度和准确度。知识图谱地点检索方法主要分为图数据库检索和RDF(Resource Description Framework)数据检索。图数据库检索方式具有较高的检索速度,但是无法充分综合用户语义和空间信息进行结果筛选和排序,检索准确度不高,另外用户需要了解底层存储结构和查询语言,不能适用广大的普通用户;基于RDF数据的检索方法能较好的表达语义信息,其中KSP(Top-K Relevant Semantic Place Retrieval)是一种目前在小规模RDF有向图上具有较好效果的检索方法,然而为了表达更完整的语义信息需要将RDF有向图转化为RDF无向图形式,这导致数据量大大增加,现有方法无法在大规模RDF无向图上进行高效且准确的地点检索。本文根据KSP检索思想设计了一种面向大规模RDF无向图数据的地点检索方法,该方法旨在提高检索的速度和准确度,具体包括数据预处理、索引构建、查询算法和结果排序四部分内容。首先在离线阶段进行数据预处理并生成待解决的问题模型,其次根据语义和空间信息构建语义距离索引、空间索引以及空间语义混合索引,并分别对索引进行优化以降低索引的存储和查询开销。在检索阶段,本文设计了一种包含模糊查询和精确查询的两阶段查询策略,在利用索引信息进行地点检索的同时进行动态的界限剪枝优化,进一步提升检索速度,最后构建了一种基于Skyline的指数型Top-K排序模型对检索结果集进行筛选和排序,提高了检索准确度。本文根据上述理论基础设计并实现了KPR(Knowledge-Graph Place Retrieval)系统。搭建实验环境并使用开源知识库Yago和DBpedia数据进行实验测试和对比分析。实验结果表明,KPR系统在大规模RDF无向图下具有较高的检索速度和准确度,并根据索引优化方法降低了索引构建的开销代价,提升了检索系统的整体性能。
其他文献
高轨高分辨率卫星对地观测技术是未来对地观测技术发展的重要方向。高轨卫星具有更高的运行轨道、更大的地面覆盖区域和更加规律的重访周期,但轨道高的特点同时也导致其空间
随着技术发展,在大数据的时代,信息处理已经融入了人们的生活,如何快速处理庞大的数据是我们急需面对的问题,特征提取就是针对海量数据的处理所提出的有效解决办法。很多的学
面对强烈的反传统思潮及当时的教育弊端,在“手空空,无一物”的艰难办学条件下,以钱穆为代表的新亚人抱持对中国历史文化的温情与敬意,坚持以文化复兴实现民族复兴而筚路蓝缕
当前,函数是我们用来表示或描述自然界中事物及其规律的常用工具.但是,随着现代科学技术的发展,简单函数早已不能满足现实中事物的变化规律,而多重二次曲面(Multiquadric,MQ)
政治信仰是人类信仰形式中最为重要的信仰形式,它在本质上反映了社会群体的政治取向和政治认同,它反映了信仰主体对社会状态的理解与对未来社会形态的构想。本文先从政治信仰
在印染等行业中,需要对一些流体的颜色进行在线检测,实时把握颜色变化情况,从而做出正确反应。常见的流体颜色检测方法有人工测色和分光光谱分析。前者由于人存在视觉疲劳,因
身份认证是密码学中的一个重要研究领域,是网络信息安全的一个重要保障。当前大部分的身份认证方案基于的困难问题是大数分解问题、离散对数问题等数论问题。但随着对安全性要求的逐渐增强,密钥长度也在逐渐增加;而且大数分解因子算法和离散对数问题的算法一旦被攻破,那么这些身份认证方案也将不再安全。而基于非数论问题的零知识身份认证方案能弥补这些不足,而且这类方案往往有更低的通信复杂度。Stern在1993年提出了
伴随着多飞行器系统与人工智能技术的飞速发展,航天领域提出了空间卫星远程修复的发展设想,以弥补传统修复方式的局限与不足。在空间卫星远程修复系统中,跟踪卫星的跟踪及控
党和国家的大计是教育,而作为教育第一资源的教师,身上肩负着为党育人、为国育才的历史重任。教师的专业发展对于学生发展和教育发展都有着举足轻重的作用,而教学反思作为教
在模式识别的发展中,分类器集成发挥了重要作用。当集成规模逐渐增大时,分类器间会出现一些冗余的个体,进而使分类器间差异度呈现下降趋势。于是开始针对减小分类器规模的方