论文部分内容阅读
随着大数据时代的来临,大量积累的数据已成为了各行各业重要的数据资产。时间是体现数据价值的重要指标,时态数据越来越得到人们的关注。因此如何对时态数据进行有效的存储、管理和检索已成为数据库和信息检索领域研究的热点。数据库信息检索技术是数据库和信息检索的交叉领域,可以有效的支持普通用户在数据库上高效地进行关键词检索,该领域已取得了众多的研究成果。时态信息检索领域研究表明,通过将时态信息融入信息检索技术,可以有效地处理用户的时态查询,快速、高效地检索用户所需要的信息。然而现有的关系数据库关键词检索方法未考虑数据时态性,缺乏对时态数据的检索。因此针对这一问题,本文从时间维度出发,研究关系数据库上基于关键词的时态信息检索方法。首先,介绍时态信息处理的相关理论,为本文时态检索方法的研究提供思路和理论支持。然后,在原有关系数据库关键词检索方法基础上,引入时间维度提出了时态信息检索模型,设计了基于关键词的关系数据库时态信息检索方法。该方法包括三部分内容:(1)通过分析数据库中存储的时态实体和实体之间的时态关系,构建时态数据图;(2)由于现有的索引方法不能满足时态关键词结点的快速查找,设计了时态倒排索引,该索引通过对每个关键词对应的时态结点集合进行时态分区来提高查找效率;(3)设计了时态检索算法T-STAR,该算法主要采用时间修剪策略,对不满足时态约束的边进行修剪,保证检索结果满足时态查询的时间约束,同时,提出了时态边权重的计算方法,更好的满足检索结果的内容相关性。最后,实现了基于关键词的关系数据库时态检索原型系统,利用Employees和NBA时态数据集从P@K和MAP两个评价指标对本文提出的方法进行了实验评估。实验结果表明了该方法在保证检索效率的前提下,有效提高了数据库信息检索效果,满足用户的时态检索需求。