面向领域的Deep Web查询接口发现研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:zjflxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深层网络指的是位于表层网络之下所隐藏的数据,需要用户填写表单发送查询请求才能获取,其数据量远远超过表层网络且信息价值巨大。由此原因,如何挖掘出位于深层网络中的海量数据成为了研究热点,特别是Deep Web的信息集成研究尤为重要。Deep Web数据集成中的第一步是Web数据库的发现,也就是查询接口的发现。但由于深层网络的数据位于众多的web数据库中,并且处于不断的变化中,相应的接口也可能随之改变,增大了获取的难度。其中最为突出的技术难点是:一,Web数据库分布广泛且数量巨大,获取包含查询接口的网页信息的效率问题有待提高;二,查询接口都是以表单的形式存在,但并非所有的表单都是查询接口,如何从中正确地筛选出Deep Web查询接口、提高分类正确性也是亟待解决的问题。围绕着Deep Web查询接口发现中的两个难题,本文主要做了以下工作:首先,对Deep Web进行研究,其中包括Deep Web的概念、规模、存在方式、获得方法以及Deep Web查询接口发现中的一些关键问题,提出本文研究的研究方向和内容。其次,对查询接口发现中用到的相关技术进行分析,包括通常用的DOM解析和启发式规则研究,然后分析了查询接口发现的主要算法,并进行比较。再次,针对面向领域的Deep Web查询接口获取的效率问题,本文提出了一种查询接口发现算法,包括基于单线程和多线程算法,并进行试验对比,结果显示基于多线程的算法效率提升显著。最后,为了从获取的网页表单中正确地筛选出Deep Web查询接口,本文在前人研究的基础上,提出了基于启发式规则的K最近邻算法,用于从表单中正确识别出Deep Web查询接口,为了进行实验验证,本文从多种途径多个领域取得查询接口和非查询接口,并分别进行实验,实验结果表明,该算法能明显提高对Deep Web查询接口的辨别能力,特别市在面向图书领域的实例中,在查重率和查全率方面都有明显提升。
其他文献
技术人员在设计界面时,更多考虑的是计算机如何编码,存储,和处理信息,是为计算机本身的方便而设计的,并不符合人们既有的行为习惯。用户要适应计算机,计算机并没有与人们的生活环境
随着网络信息技术的蓬勃发展,网络生活已成为人们生活中的一部分,计算机自动识别语义能让计算机给人提供更好的服务,因此,计算机自动识别语义已经成为广大学者关注的焦点。但
随着多媒体技术和信息技术的迅速发展,视频技术作为多媒体技术中的重要元素获得了更多关注。为了使视频传输更快,提出了视频压缩技术。H.264作为当今应用最广泛的视频压缩编码
无线传感器网络(Wireless Sensor Networks, WSNs)作为物联网底层支撑技术受到全世界关注。不同于其他无线网络,无线传感器网络中节点通常由电池供电,能量受限,所以提高无线传感
当前技术协会组织网站停留于Web1.0网站单向信息发布的模式,缺乏成员间交互渠道,不能满足协会组织内各种角色成员进行充分而又广泛的思想和信息交流探讨的需求。为此,本文在
目前,人体活动识别技术大都局限于仅使用加速度对人体运动进行识别,融合异构传感器数据进行复杂活动识别的研究很少,现有的一些融合加速度和心率进行活动识别的工作,也仅仅是在特
重庆地处中国的西部,是一个多山多河流的城市,桥在这座城市发展中起到了举足轻重的作用,桥梁的健康直接影响到城市的经济发展及人们的日常生活,所以桥梁的健康监测成为了城市建设
现如今,互联网的发展突飞猛进,遍布日常生活中的各个角落,给人们的生活带来了巨大的便利。而如何在互联网的汪洋大海中获取用户想要的信息,搜索引擎无疑是一个方便可靠的工具
近些年来,软件技术得到了长足的发展,用户对软件系统的需求也越来越高,针对用户提出各种各样新的需求和系统运行环境的改变,用户希望软件系统可以在运行状态下,并不用对软件
论文设计开发了一套矿山设备布置图系统,课题来源于生产实际,针对某矿山设备管理需求进行研究开发。课题对矿山企业的设备管理实际需求进行评估、确认,并结合该矿山企业的设备管