图像搜索引擎中信息采集技术的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zuoluo1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet规模的迅速增长,网上的信息资源也迅速增长。这使得用户在网上迅速、准确地获得所需信息变得越来越困难。因此,改善传统的信息采集和搜索模式,使用户能更迅速准确地查找到所需的信息,减少网络通信量和缩短工作时间显得越来越重要。当前大多数用于Internet信息采集的网络爬虫都采用服务器/客户机架构,某些系统在服务器端使用并行/分布式架构,这虽能从一定程度上提高信息采集的速度,但还需将信息下载到本地。因此,系统在爬行过程中大量占用网络带宽。此外,由于Web信息量成爆炸式的急速膨胀,完成信息采集所需的周期越来越长。针对现有研究在Web信息采集领域的不足,将移动Agent技术应用到Web信息采集系统中,充分利用移动Agent技术的优势,彻底改变传统信息采集和搜索模式,将传统的计算模式-“将数据拉到计算”改为“将计算推向数据”。在该系统中移动爬虫运行在远程Web服务器上,将集中在服务器端的处理,如特征提取、建立索引等计算分布到远程的Web服务器上处理,最后将压缩后的索引数据回传到服务器端。这不仅提高了处理效率,还减小了网络传输量,还在一定程度上增强了系统的稳定性。在信息采集过程中,移动爬虫的自适应迁移策略控制爬虫在系统中的移动,可以减小网络数据传输量和缩短工作时间;移动爬虫的并行度控制策略控制爬虫的个数,不过分加重Web站点的负载,增强了系统稳定性。理论分析和系统测试表明,基于移动Agent的网络爬虫在网络数据传输量和爬行时间等指标上均优于传统爬虫。
其他文献
计算机网络的日益发展和普及以及跨地域分布的企业组织机构使得数据的存储和应用越来越分布化。分布式数据库(Distributed Database)技术就是在这种环境下应运而生的。基于这
空管系统对空管事务进行调度,保证空中交通的安全。在空管系统中,必须保证关键服务的容错性和高可用性。数据复制技术为实现这一目的提供了一个较好的解决方案。因此,研究数
所谓VPN(Virtual Private Network,虚拟专用网络)是指通过公用骨干网联接,利用隧道协议和安全措施构建的专用网络,这里的公用网主要指Interet。为了保障信息在Internet上传输
数据挖掘作为一门学科,汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,受到各界的广泛关注。目前,就国内来说,虽然数据挖掘技术本身已经逐步趋向成熟,而且从
学位
随着计算机硬件技术的飞速发展,单个处理器性能的增长已经遇到了瓶颈,处理器个数的增长成为了提高单个计算机性能的主要发展方向。处理器个数的增长给应用程序的性能提升带来
软件复用是当前软件工程研究的重要问题之一,被认为是解决软件危机的有效途径。近年来,面向对象的构件化软件技术蓬勃发展,国际上出现了像CORBA,COM,EJB等构建构件系统的标准和技
访问控制是信息系统安全的重要方面,也是近年来国内外研究的热点。特别是基于角色(Role-Based Access Control:RBAC)的访问控制机制,更是企业级应用的核心。基于角色访问控制
  本文基于中山大学软件学院副院长常会友教授提出的办公自动化系统设计方案,对广东警官学院办公自动化系统进行了深入研究和开发。论文中主要通过对工作流技术、工作流管理
鉴于会展业对经济发展和社会生活带来的影响越来越巨大,政府也已经越来越关注会展业和会展经济。如何扩大会展影响力,降低展会成本,提高办展效率,展会的信息化是一个重要的研究方