论文部分内容阅读
目前,Deep Web能检索到传统搜索引擎不能检索的信息资源,其检索的公共信息约是surface Web的600倍,是从后台数据库中检索出来的结构化信息。因此,Deep Web吸引了国内外许多学者和研究机构的广泛关注与研究。
Deep Web数据集成的研究一般包括Web站点发现、模式匹配、接口集成、查询转换、数据抽取,其研究目的是为了给用户提供一个统一的访问途径来自动获取和利用分布在Internet的一些Deep Web信息。其中查询转换的功能是将集成接口上的查询转换到相应的目标接口上,在此基础上进行的数据抽取是利用目标查询串在目标站点进行数据检索,并从中集成有意义的数据。因此,本文深入研究的查询转换以及在此基础上的数据抽取是Deep Web数据集成研究中的重要内容,具有重要的研究和应用价值。
本文主要工作有:
(1)主要探讨了查询转换模块,提出了两种映射方案来解决查询转换映射机制,分别是同义属性和成组属性映射方案以及人工干预映射方案,通过这两种方案的合理的结合使用,正确的解决了如何从源查询串到目标查询串全面准确的映射,从而为全面准确的检索数据提供了保证。
(2)对Deep Web数据抽取策略进行了深入研究,使用了基于HttpClient工具的Deep Web页面获取方法,同时解决了在出现数据分页的情况下获取DeepWeb页面的问题,从而较为全面准确的爬取到了深度网数据。
(3)提出了基于样式的定位系统处理被查询页面的方法。该方法首先对Deep Web信息准确的定位,然后利用HtmlParser基于一定的规则抽取该页面上的Deep Web数据。
为验证文中提出的查询转换和数据抽取方案,本文实现了一个Deep Web实际应用系统,其运行的效果表明文中给出的方案有效可行,较好地解决了查询转换过程中映射机制和数据抽取准确性的问题。