论文部分内容阅读
随着互联网的日渐普及,信息检索成为当今生活中不可或缺的部分,其中与空间信息相关的地点检索更是用户日常检索中的重要组成部分。然而随着数据量的急剧增大,传统基于文本的关键词检索方式在检索速度和准确度方面都受到了巨大的挑战。为了解决大数据背景下检索速度和检索准确度较低的问题,知识图谱应运而生。基于知识图谱的地点检索以用户语义为核心,将知识抽象为实体,并利用用户的查询时间、空间位置等信息试图理解用户在某个时刻某个地点的查询语义和期望需求,从而有效的提升地点检索的速度和准确度。知识图谱地点检索方法主要分为图数据库检索和RDF(Resource Description Framework)数据检索。图数据库检索方式具有较高的检索速度,但是无法充分综合用户语义和空间信息进行结果筛选和排序,检索准确度不高,另外用户需要了解底层存储结构和查询语言,不能适用广大的普通用户;基于RDF数据的检索方法能较好的表达语义信息,其中KSP(Top-K Relevant Semantic Place Retrieval)是一种目前在小规模RDF有向图上具有较好效果的检索方法,然而为了表达更完整的语义信息需要将RDF有向图转化为RDF无向图形式,这导致数据量大大增加,现有方法无法在大规模RDF无向图上进行高效且准确的地点检索。本文根据KSP检索思想设计了一种面向大规模RDF无向图数据的地点检索方法,该方法旨在提高检索的速度和准确度,具体包括数据预处理、索引构建、查询算法和结果排序四部分内容。首先在离线阶段进行数据预处理并生成待解决的问题模型,其次根据语义和空间信息构建语义距离索引、空间索引以及空间语义混合索引,并分别对索引进行优化以降低索引的存储和查询开销。在检索阶段,本文设计了一种包含模糊查询和精确查询的两阶段查询策略,在利用索引信息进行地点检索的同时进行动态的界限剪枝优化,进一步提升检索速度,最后构建了一种基于Skyline的指数型Top-K排序模型对检索结果集进行筛选和排序,提高了检索准确度。本文根据上述理论基础设计并实现了KPR(Knowledge-Graph Place Retrieval)系统。搭建实验环境并使用开源知识库Yago和DBpedia数据进行实验测试和对比分析。实验结果表明,KPR系统在大规模RDF无向图下具有较高的检索速度和准确度,并根据索引优化方法降低了索引构建的开销代价,提升了检索系统的整体性能。