基于移动Agent的主题搜索引擎研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:huangzhijian2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Web上海量的信息处于不断的变化中,通用搜索引擎己经很难再为用户提供一个全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询请求。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。目前,对主题搜索引擎的研究正处于十分活跃的阶段。Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文首先分析了搜索引擎的发展状况,阐述了搜索引擎各主要部分的工作原理,在此基础之上,探讨了主题搜索引擎的研究背景,分析了主题型Web搜索研究兴起的原因,及其潜在的研究价值,通过阅读文献,给出了一些比较有代表性的系统的描述。详尽地分析了主题搜索中的几个关键技术,包括主题概念定义、主题资源发现技术,主题爬行器的构造、主题爬行的启发策略及其算法实现。在分析主题搜索引擎页面爬行特点的基础之上,结合Agent技术的相关知识,提出了使用移动Agent进行主题信息收集的方法,分析了采用这种方法能带来的潜在的爬行效率的提升,尤其是网络带宽资源占用情况方面的改善,给出了一个基于移动Agent的主题搜索引擎系统原型,并描述了各个部分的主要功能,并对其中的几个关键部分给出了具体实现的方法,包括:主题特征的提取、移动Agent的系统框架、移动Agent的具体工作过程、主题页面的采集与内容解析和主题相关度的计算等。最后,在IBM aglets平台上设计并实现了一个基于移动Agent的主题信息爬行器,并通过实验,对比分析了基于移动Agent的主题页面爬行方式与以往工作方式的性能效率差异。结果表明,此种方法能有效减少传统方法下获取页面时,无关信息造成的网络负载,提高主题信息的获取效率。
其他文献
群体组织是指为了达到共同的目标,由个人组成的、能够直接或间接通信、相互依赖、相互影响的群体结构。随着组织规模的不断扩大,组织结构的日益复杂,以及组织环境的变化日趋
在模糊BCK-代数,模糊BCH-代数研究的基础上本文在BCK(BCH)-代数中研究了范围更广的(λ,λ)-广义模糊子代数,(∈,∈vq(λ,μ))-模模糊子代数,以及几种(λ1,λ2)-广义模糊理想和(∈,∈v
现代农业对市场信息服务有着巨大的需求,由于缺乏相关信息的指导,我国农业经营者从种植到销售的整个环节存在着很大的盲目性和随意性,农业生产的风险大大增加。因此,如何从大
随着微电子产业与计算机技术的不断进步,无线传感器网络得到了快速发展。Multi-Radio Multi-Channel无线传感器网络对降低网络传输延迟、提高数据传输鲁棒性具有重要作用,已
随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子
二维条码技术在出版、交通运输、商贸、制造业、医疗卫生、仓储等领域有着越来越广阔的应用前景,国内外的学者对二维条码技术进行了广泛和深入的研究。但是,如何使用二维条码
近年来,随着进化计算研究热潮的兴起,人们逐渐将进化计算与人工神经网络相结合,利用各种进化方法去训练神经网络。由于进化算法具有较强的全局收敛能力和较强的鲁棒性、且不
太阳能发电是近年倍受关注的新能源发电形式之一,它既保护了环境又节约了能源。其中光伏并网发电作为最主要的太阳能发电形式,目前有着非常好的发展前景和趋势。在光伏并网发电系统中,并网逆变器是最重要的组成单元,其性能的优劣决定着整个系统多个方面的工作效率。到目前为止,国内外已对光伏并网逆变器进行了大量的研究和应用,但是其中一些关键技术还未得到更好的解决。本课题将针对这些关键技术进行深入的研究。分析了几种传
随机规划是含有随机因素的一类不确定规划问题,它广泛存在于工程实际中。其传统的求解方法是针对某些具有特殊结构的随机规划问题,将其转化为确定性等价类,再用已有的确定性
细分造型方法的实质是通过对初始控制点或者初始网格进行一系列的细化过程,细化的极限生成所需要的曲线或者曲面。细分是生成任意拓扑曲面强有力的方法。细分算法的最大优点