Deep Web信息自动搜索方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:rocklysun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,人们可以从中获得越来越多有价值的信息,并且这些信息的数量仍在迅速的增长。按照信息的“深度”,可将互联网分为Deep Web和Surface Web。相对于Surface Web,Deep Web中的信息数量更大、结构化程度更高、专业性更强,也因此具有更高的价值。目前,Deep Web相关的问题已成为Web领域研究的热点。 Deep Web信息的自动化获取是其中非常重要的一个问题,因为虽然有大量的信息分布于Deep Web,但传统搜索引擎由于其自身的技术障碍无法获取,通过手工方式获取不但效率低下且成本高昂;此外,没有Deep Web信息的自动化获取,后续的信息抽取等工作也很难体现出价值。由此可见,Deep Web信息自动化获取技术的研究至关重要。 本文提出了一种基于XML和Web信息抽取技术的、针对特定领域DeepWeb信息的自动化搜索方法。利用该方法能够实现对某一领域多个。Deep Web信息源的自动化搜索,并且可以灵活扩展信息源的数量。 本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进行了总结与评价。
其他文献
随着电子信息的发展,人们对专业信息的检索需求越来越强烈。通用的基于浏览和字面匹配的检索工具已经不能为人们提供比较准确的搜索结果,依靠行业元数据和知识库的垂直搜索技术
分离关注点原则是软件工程中最要的原则之一,然而随着软件复杂度的不断提高,传统的分离关注点技术只允许按照一种方式分解系统越来越显出了弊端,越来越多的关注点得不到有效分离
生物网络中基于拓扑特性识别关键基因对于深入了解生物体的致病机制至关重要。针对不完整相互作用网络(如Human网络)中,通过网络中心性识别关键基因效率低的问题,本文从多层
随着计算机硬件、软件技术的飞速发展和计算机系统在各行各业的广泛应用,数据已经成为各种机构的宝贵资源,数据库系统对于当今科研部门、政府机关、企事业单位等来说都是至关
基于角色的访问控制(Role-Based Access Control,RBAC)是目前访问控制技术的研究热点之一。它可以成功地降低大型网络应用安全管理的复杂性和花费。但目前多数对于RBAC的授权
随着网络资源数量和种类的增多,网络规模不断扩大,网络结构日益复杂,如何对大型异构网络进行简单有效的管理是当前网络管理技术面对的主要问题。传统网络管理技术依赖于底层平台
传统汽车仪表检测主要以人工方式进行:检测工人设定仪表的频率参数,人眼观察指针所指的位置以判断仪表是否合格。这种检测方式严重依赖人工,可靠性不高,效率低下,不适应现代
在Internet技术迅速发展的今天,益智游戏在儿童教育中发挥了举足轻重的作用。本论文着眼于协同益智游戏的研究,旨在有效开发儿童智力的同时,培养儿童的团结协作精神,从而促进
计算机和互联网技术正在改变着人类社会的面貌,伴随而来的是信息安全问题。目前的安全技术如加密、防病毒、防火墙、入侵检测等功能过于单一,从而无法满足安全要求。对于最常
随着多媒体技术在无线移动自组网环境中的应用需求越来越多,无线移动自组网的QoS路由协议的研究日益显示出了其重要性。 在众多的Ad hoc网络协议中,FSR路由协议以它简洁的算