论文部分内容阅读
随着互联网技术的飞速发展,网络中蕴藏的有价值信息愈来愈多。但各站点提供的信息在数量及质量上都存在巨大的差异。这给人们选取高质量信息带来了困难。搜索引擎技术可以对网络资源进行分类整理和检索,极大地提高了人们获取有价值资源的效率。然而有的数据资源位于后台数据库中,不能被传统搜索引擎检索,这部分网络资源称为深层网络。深层网络所包含的数据具有结构化程度高、数据量大、质量优质等特点。因此,研究这些数据具有重要的意义。本文针对如何发现并抽取深层网络数据展开了相关研究。要利用深层网络中的信息,首要问题就是发现深层网络的数据源。其次,对于向深层网络提交查询后所返回的结果数据区域,如何自动发现这些区域是对其信息抽取的前提。针对这些问题,本文主要完成三个方面的工作:研究并改进了一种数据源的发现方法;采用了一种新的网页结构相似度比较算法,在算法的基础上实现了网页数据区域的识别:设计了深层网络信息集成系统框架,并实现了数据源发现与结果网页信息抽取功能模块。首先是深层网络数据源的发现及方法改进。论文设计了一种数据源发现框架。针对查询接口的判定问题,本文分析了查询接口与其他表单的区别,采用了一系列规则进行判断。数据源一般只限某一类领域,为准确查找数据源,必须判定其是否与主题类别相关。论文分析了传统数据源分类方法在特征选择方面的不足之处,并对特征选择策略进行了改进。实验表明,改进的方法能有效发现主题相关的数据源站点。然后是网页信息抽取及新算法的应用。本文通过分析在线数据库返回结果页面的特点,发现每个数据区域对应的标签树在结构上十分相似。论文采用了一种新的网页结构相似度比较算法,识别数据区域所在位置。新算法将网页的标签表示成树的形式,并定义一种特殊的子树,将整个树的比较划为对这些特殊子树的比较,实验证明了此算法能有效反映网页结构的相似程度。使用该算法找出数据区域所在位置之后,本文利用网页结构特点及关键词提取相关记录,并将这些信息抽取出来。最后是深层网络数据集成框架设计与主要模块实现。论文设计了深层网络信息集成框架。并且在第三章数据源发现方法及第四章深层网络结果页面信息抽取方法的基础上,实现了该集成框架的主要模块。