Deep Web查询转换和数据抽取的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:hntkpop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,Deep Web能检索到传统搜索引擎不能检索的信息资源,其检索的公共信息约是surface Web的600倍,是从后台数据库中检索出来的结构化信息。因此,Deep Web吸引了国内外许多学者和研究机构的广泛关注与研究。   Deep Web数据集成的研究一般包括Web站点发现、模式匹配、接口集成、查询转换、数据抽取,其研究目的是为了给用户提供一个统一的访问途径来自动获取和利用分布在Internet的一些Deep Web信息。其中查询转换的功能是将集成接口上的查询转换到相应的目标接口上,在此基础上进行的数据抽取是利用目标查询串在目标站点进行数据检索,并从中集成有意义的数据。因此,本文深入研究的查询转换以及在此基础上的数据抽取是Deep Web数据集成研究中的重要内容,具有重要的研究和应用价值。   本文主要工作有:   (1)主要探讨了查询转换模块,提出了两种映射方案来解决查询转换映射机制,分别是同义属性和成组属性映射方案以及人工干预映射方案,通过这两种方案的合理的结合使用,正确的解决了如何从源查询串到目标查询串全面准确的映射,从而为全面准确的检索数据提供了保证。   (2)对Deep Web数据抽取策略进行了深入研究,使用了基于HttpClient工具的Deep Web页面获取方法,同时解决了在出现数据分页的情况下获取DeepWeb页面的问题,从而较为全面准确的爬取到了深度网数据。   (3)提出了基于样式的定位系统处理被查询页面的方法。该方法首先对Deep Web信息准确的定位,然后利用HtmlParser基于一定的规则抽取该页面上的Deep Web数据。   为验证文中提出的查询转换和数据抽取方案,本文实现了一个Deep Web实际应用系统,其运行的效果表明文中给出的方案有效可行,较好地解决了查询转换过程中映射机制和数据抽取准确性的问题。
其他文献
近年来,随着存储系统双容错编码在商业产品中的使用越来越多,它们的编码、解码优化也受到越来越多的关注。RAID6是一种重要的容双错编码RAID结构[1],并且有Reed-Solomon编码
学位
近年来,随着计算机网络和通信技术的飞速发展,越来越多的用户对网络资源的需求趋向于视频和音频等流媒体资源,基于流媒体技术相关的研究和应用成为当前热点之一。传统的C/S服
在各种科学研究和工程领域中,经常会遇到大量的优化问题。而且随着现实社会的快速发展,许多优化问题变得越来越复杂,传统的优化算法已经很难能满足各种科学和工程需求。因此,
随着“互联网+”概念的提出,互联网的应用在我国越来越广泛,人们对知识的渴望越来越强烈。但是目前海量的信息充斥在网络各个角落,导致人们对有效信息的获取越来越困难,其中
基于身份公钥密码系统直接由用户的身份信息生产公钥,无需使用证书来认证用户的公钥,避免了证书管理的开销。基于证书公钥密码系统克服了传统公钥密码系统的证书管理问题和基
SIP(Session Initiation Protocol)是一种基于信令的协议,它广泛应用于多媒体通讯。P2P-SIP (Peer-to-Peer SIP)结合了P2P和SIP的方法克服了传统的基于C/S模式的SIP (Client/
近几年,信息安全已经成为全球公认的热点问题,生物认证技术(Biometrics recognition)具有信息量大、特征稳定、采集容易等优点,为信息安全问题提供良好的解决方案。随着多媒
GPS、GSM、无线传感等技术的快速发展和网络签到模式的出现,人们可以更容易收集大量的记录他们在一定时间内的经度和纬度坐标的实时位置数据。真正记录用户地理位置的活动的
图像处理应用广泛,其中数字图像处理技术更是被广泛应用于生活的各个方面。图像分割作为图像工程中由图像底层处理过渡到图像分析的关键步骤,一直是图像技术研究中的热点和焦
随着大数据时代的到来,需要存储的数据量变得越来越大,而传统的存储方式已经难以满足人们的需求。此外,人们对存储的安全也有了更高的要求。对象存储系统以其低成本、高可扩