Deep Web数据源的发现和分类

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:wp840716
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在快速发展的互联网时代,信息技术迅速成为社会的重要资源。如何使用户快速、高效地获取信息资源成为当前领域研究的热点。通常情况下,我们在检索数据时使用的搜索引擎一般只能够访问到一些静态网页等数据资源(即Surface Web),而对于信息质量更高的Deep Web数据源则需要在包含查询接口的页面,通过不断地填写表单提交查询才能获取到。这种传统的Deep Web数据源获取方式大大降低了信息资源的利用率。为了最大限度的获取Deep Web数据源信息,并对获取到的数据源信息进行分类,方便后续的数据集成工作以及用户的检索使用,本文基于传统的Deep Web数据源发现方法的优缺点,提出了一种新的Deep Web数据源发现和分类方法。我们根据系统响应用户查询时获取数据的途径不同,即数据是从各应用网站获取还是来源于集成的本地数据库,将Deep Web数据源发现搜索框架分为实时的和非实时的两种情况。本文在系统地概括了这两种框架的基础上,着重介绍了实时的搜索框架以及各模块实现的主要功能,通过“数据源发现引擎应用程序模块”和“客户端数据源应用程序模块”的相互通信,实现了Deep Web数据源的有效发掘以及用户的快捷查询。为保证检索效率,面对数据库中庞大的分类词典,本文进一步提出了基于同义词词林和知网融合的分类方法来对各个被检索网站和用户的查询关键词进行了分类。本文提出的框架模型方法能够有效的克服传统方法基于领域研究的局限性,可以更好的利用Deep Web数据库的结构性特征,极大地方便了后续的集成工作,并能够大大节省用户在检索时的时间开销。
其他文献
近年来,个性化主动信息服务的研究取得了很大的进展。而在个性化主动信息服务中最重要的服务就是个性化信息推荐。作为人工智能的一个重要研究领域,数据挖掘近年来有了广泛的应
由于互联网信息的飞速发展,Web中蕴含了海量的信息供人们使用,其中Deep Web数据库是对用户不可见的,其中涵盖的信息只能通过特定的查询接口来查询获得。为了充分利用Deep Web
大型全纤维曲轴是船用发动机等重型机械的主要组成部分,也是其中尺寸最大的部件,它的形状结构和尺寸也在很大程度上影响并决定着发动机乃至整个船舶的整体尺寸。曲轴在船用发
粗糙集理论是一种处理含糊和不确定性问题的新型数据分析方法,以其为理论基础的数据处理技术得到深刻关注和不断发展。信息检索致力于寻求准确、高效、智能的信息组织与存取方
说话人识别技术因其特有的方便性、经济性、准确性,安全性等方面的的优势,在生物特征识别领域具有广泛的应用前景。目前,随着说话人识别技术研究的不断深入,已有的系统在理想
本文分析了目前敏捷动态联盟国内外的研究现状及意义,分析了分布式系统结构和Web服务的体系结构及技术。根据敏捷动态联盟的特性、组建原则及过程,总结出动态联盟的体系结构,
无线局域网是无线通信领域发展最有前景的领域,但由于其使用的通信媒体具有开放性的特点,使得它更容易遭受各种攻击。建立与完善一种可靠的面向无线网的安全标准成为亟待解决
随着信息技术的快速发展,特别是Internet的兴起,全球信息资源数量增长迅猛。但由于现行信息检索系统所采用的信息资源组织技术(如分类法和主题法)不能很好地揭示信息中所蕴含
电信业务运营支撑系统(Business Operation Support System,BOSS)涵盖一系列的子系统,这些子系统之间需要进行大量的功能交互和数据交互。因此如何保证这些系统间接口的稳定以
随着人类社会进入“信息时代”,信息记录的形式已由纸张演变为电子形式,而对于信息的检索也由计算机代替了人工方式。在存储、检索和更新结构化数据时,传统的关系数据库(RDBMS)