【摘 要】
:
Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了一种采用多分类器对Deep Web数据源进行自动
论文部分内容阅读
Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了一种采用多分类器对Deep Web数据源进行自动分类和判别的方法:将Deep Web数据源的发现过程阶段化,每个重要的阶段使用有效的分类器对其进行处理。本文给出了数据源发现的框架图,并根据TEL-8 Query Interfaces提供的数据和一些收集数据实现了数据源发现的框架,并对其效率进行了评估。本文主要研究内容包括以下四个方面:
(1)对国内外Deep Web资源的规模、结构进行了调查研究,并指出国内外对Deep Web资源发现的新进展。
(2)针对传统搜索引擎爬虫程序在Deep Web领域资源发现上的缺陷,设计了一个面向查询表单的聚焦爬虫,并将强化学习的思想用于爬虫程序对超链接的选择上,实验表明爬虫的效率及其准确性有了很大的提高。
(3)采用分步的思想,将Deep Web的资源发现过程阶段化,提出了资源发现的框架设计,针对于每个阶段的主要任务,使用有效的分类器对其进行处理,从而最大限度地提高其资源发现的回报率与准确率。
(4)针对于查询表单分类器和领域表单分类器所选取的分类特征,设计了一个表单信息提取器,对表单的结构特征和文本特征进行解析。
本文最后根据Deep Web数据源的分类和判别框架,利用TEL-8 Query Interfaces采集到的查询接口的数据集和自己搜集的非查询接口的数据集对分类器进行训练,并使用表单聚焦爬虫抓取特定的数据集来对整个框架在各个领域的精度进行了实验。实验结果表明,其在查询接口的判定上精度有很大提高,在查询接口的分类方面也有一定改善。
其他文献
伴随着信息技术的飞速发展,网络的复杂性也在不断增强,各种新型网络设备的出现在丰富我们的网络生活改善我们网络体验的同时,也给如何安全高效地进行网络管理提出了挑战。简
随着信息技术的飞速发展,在E-Learning的研究领域中,个性化服务已逐渐成为该领域内一个活跃的研究方向。它的目的是要通过分析学习者的个性化信息,进一步分析学习者的个人需
随着社会的发展,人们对居住的社区环境要求也越来越智能。为了实现这些要求,需要在社区中架设无线传感器网络,但为了充分发挥无线传感器网络的作用,就必须将传感器网络采集的
随着生活水平的提高,人们越来越注重生活品质提升,传统的家用电器已经无法满足现代家庭的需要,因此集信息化、网络化和智能化为一体的信息家电以其特有的优势进入未来家庭将是一个必然的趋势。目前国内对信息家电内部结构的研究很少,本文正是在这样的背景下,研究一种信息家电内部结构并予以论证和实现。本文分析了信息家电的主要功能,提出了一种基于XML(Extensible Markup Language)描述的信息
随着生物信息学的发展,全基因组序列不断被测序,对于转录的研究变得越来越重要,转录因子,作为一种重要的转录调控元件,它与DNA序列的结合位点——转录因子结合位点的识别已经成为
J2EE是一种简化企业解决方案的开发、部署和管理复杂性的体系结构。在信息化时代的Web应用程序开发中,J2EE以其良好的可移植性和可扩展性,占有强大的竞争力优势。J2EE体系架
在人的视觉感知、识别和理解中,形状足一个重要的表达物体信息的参数。从图像中提取目标形状是大多数目标识别算法需要进行的一个重要步骤。角点是图像的一种重要的局部特征,是
无线传感器网络是一种由大量具有无线通信功能的传感器构成的动态、分布式、自组织网络,其目的是通过协作的方式感知、采集和处理网络覆盖区域中感知对象的信息,并发送给观察
计算机网络在生产生活中扮演着越来越重要的角色,而网络需要有网络设备的支持,使用网络设备构成网络后,才能运行各种专用服务和终端。随着信息时代的发展,网络设备的种类繁多
有关调查表明,P2P业务已悄然占据了互联网业务总量的60%-80%,成为杀手级宽带互联网应用。P2P业务流量在对互联网业务起巨大推动作用的同时,也带来了因资源过度占用而引起的网