论文部分内容阅读
随着互联网技术的飞速发展,Web中蕴藏的海量数据信息也在迅速地增长。Web数据库作为一种重要的Deep Web资源,其中包含了大量可供访问的数据信息。这些数据信息具有良好的结构化特征且指向特定领域的数据记录,因此能够为科学研究和系统应用提供更高质量的数据服务。然而,在Deep Web中,Web数据库具有异构性、分布性、动态性和自治性,独立存在于Web环境中,这些高质量的数据资源并没有得到很好的利用。Web数据库集成为有效地统一访问这些数据资源提供了解决方案。作为一个新兴的研究领域,Web数据库集成中包含了若干需要解决的研究问题。本文分析了Web数据库集成的研究现状,讨论了Web数据库集成框架的结构模型,重点研究了Web数据库集成中的若干关键技术,包括Web数据库的模式抽取、Web数据库的分类、查询结果记录的抽取与标注和数据的集成与清洗等。本文针对Web数据库集成中主要的研究问题提出了新颖、有效的解决方法,主要工作包括以下几点:(1)提出了一种基于元搜索模式的Web数据库集成框架。Web数据库集成框架的目的是为用户统一访问Web数据库资源提供支持。基于元搜索模式的Web数据库集成框架,能够透明的访问和及时的更新数据,并具有较低的系统运行代价。本文分析了实现Web数据库集成框架中所需的关键技术,将框架分为离线的Web数据库搜索模块和在线的查询处理模块。前者是从Web中发现特定领域Web数据库的查询接口,抽取其模式信息并对其进行分类;后者的目的是实现对Web数据库即时访问,抽取并标注查询结果记录,并将集成后的结果数据集返回给用户。(2)提出了基于实例的查询结果模式抽取方法。完整的模式信息对于数据集成有着至关重要的作用。对于Web数据库而言,查询接口模式决定其功能,而查询结果模式描述了其中的数据内容。现有的研究工作往往只关注于查询接口模式而忽略了查询结果模式。本文给出了基于标签的查询接口模式属性识别方法。在此基础上,提出了基于近似查询和精确查询的两段式模式匹配模型。通过在结果页面的DOM树中匹配查询关键字,并利用查询结果记录在页面中连续出现的特征识别模式属性。同时提出基于属性共现度的匹配方法提高模式属性的查全率和查准率。(3)提出了面向内容的Web数据库分类方法。现有基于领域的Web数据库分类方法已难以满足应用需求。为此,本文提出将领域中记录基于其内容划分为多个主题分类。主要解决方案为:使用主题分类中的样本实例对Web数据库查询探测,并基于查询返回的结果数量构建查询结果矩阵,该矩阵能够准确地反映出主题分类与Web数据库内容之间的匹配关系;基于矩阵内容得到主题分类。基于内容的分类结果能够为查询更准确地匹配Web数据库。(4)提出了一种有效的查询结果记录抽取技术。为避免对大量页面内容的语义匹配,有效地保证数据抽取的执行效率,本文首先基于URL匹配的方法准确的确定要抓取查询结果页面;之后利用查询结果模式抽取中识别出的模式属性路径定位查询结果记录,并实现查询结果记录的抽取与标注。基于属性路径构建的包装器能有效的改善连续查询结果页面中记录抽取的执行效率。(5)提出了一种基于模式属性间函数依赖关系的数据清洗方法。为提高来自多个Web数据库的查询结果记录的数据质量,该方法借助于实体识别技术,利用模式属性间函数依赖关系,能够有效地修复查询结果记录中不完全、不精确和不正确的属性值。同时,给出了增量式数据集成方法,即通过对记录集合的数据质量评估结果决定集成的顺序,有效地提高了数据集成的执行效率。(6)设计并实现了一个Web数据库集成的原型系统DDW Search。基于本文对Web数据库集成框架关键技术的研究成果,实现了基于特定领域的原型系统。用户可以通过系统提供的全局查询接口输入查询请求,并查看由多个Web数据库返回的查询结果。总之,本文研究了Web数据库集成框架及涉及的关键技术,对其中包含的主要研究问题提出了新颖的解决方案。大量的实验结果与分析表明这些方法能够有效地解决在Web数据库集成中存在的问题,同时具有较高的准确性和执行性能。希望本文对于Web数据库集成的研究和提出这些方法对于这一领域的研究工作具有一定的参考价值。