面向领域的Deep Web查询接口发现研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户：zjflxj

【摘要】

：

深层网络指的是位于表层网络之下所隐藏的数据，需要用户填写表单发送查询请求才能获取，其数据量远远超过表层网络且信息价值巨大。由此原因，如何挖掘出位于深层网络中的海量数据

【作者】

：

李振兴

【机构】

：

暨南大学

【出处】

：

暨南大学

【发表日期】

：

2014年期

【关键词】

：

Deep Web 查询接口多线程 K最近邻算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深层网络指的是位于表层网络之下所隐藏的数据，需要用户填写表单发送查询请求才能获取，其数据量远远超过表层网络且信息价值巨大。由此原因，如何挖掘出位于深层网络中的海量数据成为了研究热点，特别是Deep Web的信息集成研究尤为重要。Deep Web数据集成中的第一步是Web数据库的发现，也就是查询接口的发现。但由于深层网络的数据位于众多的web数据库中，并且处于不断的变化中，相应的接口也可能随之改变，增大了获取的难度。其中最为突出的技术难点是：一，Web数据库分布广泛且数量巨大，获取包含查询接口的网页信息的效率问题有待提高；二，查询接口都是以表单的形式存在，但并非所有的表单都是查询接口，如何从中正确地筛选出Deep Web查询接口、提高分类正确性也是亟待解决的问题。围绕着Deep Web查询接口发现中的两个难题，本文主要做了以下工作：首先，对Deep Web进行研究，其中包括Deep Web的概念、规模、存在方式、获得方法以及Deep Web查询接口发现中的一些关键问题，提出本文研究的研究方向和内容。其次，对查询接口发现中用到的相关技术进行分析，包括通常用的DOM解析和启发式规则研究，然后分析了查询接口发现的主要算法，并进行比较。再次，针对面向领域的Deep Web查询接口获取的效率问题，本文提出了一种查询接口发现算法，包括基于单线程和多线程算法，并进行试验对比，结果显示基于多线程的算法效率提升显著。最后，为了从获取的网页表单中正确地筛选出Deep Web查询接口，本文在前人研究的基础上，提出了基于启发式规则的K最近邻算法，用于从表单中正确识别出Deep Web查询接口，为了进行实验验证，本文从多种途径多个领域取得查询接口和非查询接口，并分别进行实验，实验结果表明，该算法能明显提高对Deep Web查询接口的辨别能力，特别市在面向图书领域的实例中，在查重率和查全率方面都有明显提升。

其他文献

文化情境下的人机交互界面设计与研究

技术人员在设计界面时，更多考虑的是计算机如何编码，存储，和处理信息，是为计算机本身的方便而设计的，并不符合人们既有的行为习惯。用户要适应计算机，计算机并没有与人们的生活环境

学位

人机交互界面文化模型信息处理编码算法

基于依存关系的汉语复句内分句的相似度计算

随着网络信息技术的蓬勃发展,网络生活已成为人们生活中的一部分,计算机自动识别语义能让计算机给人提供更好的服务,因此,计算机自动识别语义已经成为广大学者关注的焦点。但

学位

汉语复句相似度计算依存关系专家系统

基于DM平台的H.264编码器算法研究

随着多媒体技术和信息技术的迅速发展，视频技术作为多媒体技术中的重要元素获得了更多关注。为了使视频传输更快，提出了视频压缩技术。H.264作为当今应用最广泛的视频压缩编码

学位

DM平台H.264编码器算法JSD相似度运动估计编码原理

基于能效分析的无线传感器网络包长度自适应算法研究

无线传感器网络(Wireless Sensor Networks, WSNs)作为物联网底层支撑技术受到全世界关注。不同于其他无线网络，无线传感器网络中节点通常由电池供电，能量受限，所以提高无线传感

学位

无线传感器网络网络能效丢包率包长度动态梯度

基于SNS的技术协会组织交流平台构建与实现

当前技术协会组织网站停留于Web1.0网站单向信息发布的模式,缺乏成员间交互渠道,不能满足协会组织内各种角色成员进行充分而又广泛的思想和信息交流探讨的需求。为此,本文在

学位

SNS交流平台社区发现个性化推荐

融合加速度和生理信号的人体活动识别

目前，人体活动识别技术大都局限于仅使用加速度对人体运动进行识别，融合异构传感器数据进行复杂活动识别的研究很少，现有的一些融合加速度和心率进行活动识别的工作，也仅仅是在特

学位

加速度生理信号人体活动识别特征提取多传感器信息融合

面向桥梁健康监测的ZigBee无线传感器网络关键技术研究

重庆地处中国的西部，是一个多山多河流的城市，桥在这座城市发展中起到了举足轻重的作用，桥梁的健康直接影响到城市的经济发展及人们的日常生活，所以桥梁的健康监测成为了城市建设

学位

ZigBee无线传感器网络桥梁健康监测抗干扰性

伪装型垃圾网页检测技术的研究与实现

现如今,互联网的发展突飞猛进,遍布日常生活中的各个角落,给人们的生活带来了巨大的便利。而如何在互联网的汪洋大海中获取用户想要的信息,搜索引擎无疑是一个方便可靠的工具

学位

伪装型垃圾网页相似性度量分类LDA主题模型随机森林

STL运行时concept的研究与实现

近些年来,软件技术得到了长足的发展,用户对软件系统的需求也越来越高,针对用户提出各种各样新的需求和系统运行环境的改变,用户希望软件系统可以在运行状态下,并不用对软件

学位

泛型编程运行时多态C++标准模板库运行时concept

基于VBA的矿山设备布置图系统设计与实现

论文设计开发了一套矿山设备布置图系统，课题来源于生产实际，针对某矿山设备管理需求进行研究开发。课题对矿山企业的设备管理实际需求进行评估、确认，并结合该矿山企业的设备管

学位

AutoCAD二次开发VBA矿山设备布置设备图块系统设计

面向领域的Deep Web查询接口发现研究

其他学术论文