论文部分内容阅读
随着Internet的迅速发展和普及,越来越多的政府、商业、金融等企事业单位和科研机构将自己的信息以及数据库系统连接到Internet上,实现信息资源的网络共享。为了获取有用的信息,信息检索技术已经广泛地应用在Internet中,并成为Internet上获取信息的主要途径。在Internet上,使用信息检索中的搜索引擎,只需要输入感兴趣的关键词,就可以得到相关性的信息,并且按与关键词的相关性进行排序。
然而现在网络中的绝大部分的信息,都存储在关系数据库中。人们习惯使用搜索引擎,用简单的关键词检索Web信息,也期望使用关键词来检索数据库中的数据,而不需要了解数据库模式和SQL。因此,关系数据库关键词查询技术(Keyword Search OverRelaTiO2al Databases,KSORD)已经成为数据库研究的热点。
本文系统地、详尽地介绍了KSORD的研究内容和现状,以及与KSORD相关的基本数据模式、查询和结果的规范化定义。在此基础上,全面总结了国内外已开发的原型系统所使用的查询结果排序函数和查询算法的两个核心技术,并指出了其优缺点。
现有的原型系统按其查询处理策略分为离线系统和在线系统两类,而在线系统又可以分为基于模式图和基于数据图两种方式。原型系统一般是以查询数据库的文本类型的数据为主,而对数字类型考虑的比较少。而在SEEKER系统中,不仅可以对文本类型数据进行关键词查询,而且可以对数字类型以及元数据进行关键词查询。
本文是在SEEKER系统基础上,进一步讨论数据库关键词查询技术。主要是从两个方面进行扩展:其一是在数字属性查询方面,引入了模糊数学的隶属函数和模糊化算子的知识,可以进行某一确定值的近似查询,并提出了相应的Top-k算法;其二是在元数据查询方面,为了在查询过程中不单独考虑元数据信息,将传统元组进行扩展成带有注释的元组,即元数据的信息直接引入到数据表中,将元数据信息当作数据表中信息的一部分,可以使用查询文本类型方法查询元数据。最后通过实验进行验证我们所提出的算法的正确性和有效性。