基于RSS的自适应抓取服务的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:lihuihui1986712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RSS也叫聚合RSS,是在线共享内容的一种简易方式。传统的网络爬虫对实时性要求不是很高,但是RSS的特点是时效性强,为了向用户提供高时效性的个性化服务,服务器需要以最短的延迟获得更新的文章,保证离线集的“新鲜度”。之前的研究多集中于多RSS新闻的提取技术和其他RSS应用领域的研究,对于如何减少RSS抓取延迟,提高RSS文章时效性的研究较少。本文在查阅了大量国内外有关文献,分析了现有RSS技术相关研究的基础上,设计了自适应抓取间隔算法。该算法针对抓取过程中的不同情况,由加权平均更新间隔和加权更新间隔变化影响抓取间隔,根据RSS源当时的更新情况,动态调节抓取间隔。使抓取间隔更适应RSS文件更新间隔,以达到减少抓取延迟,提高RSS聚合服务时效性的目的。通过计算权值选择使权值最小的参数组合。在两个具有代表性的RSS源上,与等间隔抓取算法进行对比试验。从实验结果来看,自适应抓取间隔算法的效果明显优于等间隔抓取算法。自适应抓取间隔算法减少了抓取延迟,能使RSS聚合服务具有更高的时效性。设计并实现了基于RSS的自适应抓取服务模型,在模型中采用自适应抓取间隔算法,目的是提供一个基础服务,任何调用它的系统都可以得到所需RSS频道最新发布的信息,一方面可以向用户提供时效性更强的信息用来浏览、另一方面为RSS搜索引擎提供数据资源。
其他文献
为了解决开放式网络中网络服务的安全授权问题,Blaze等人将传统安全授权机制中的“信任”概念抽取出来作为研究对象,提出了信任管理的概念。信任管理克服了传统安全授权机制
随着计算机网络的发展,用户接入Internet的带宽越来越大,然而受Internet两个固有特性传输延时和网络丢包的影响,接入带宽成比例的提升并不能带来同比例提升的吞吐率,因而如何
P2P网络是以计算机网络为基础,采用对等模式工作的覆盖网络。P2P网络把传统的C/S模式改为每个节点处于同等地位的对等模式,任何两个人通过此网络都能直接、对等的共享文件、传
据最新统计,随着网络技术的飞速发展和互联网宽带技术的普及,目前Internet上的流媒体应用,如视频点播、视频直播等已经成为了主流应用形式。P2P技术打破了传统的传输模型,没
人名消歧是信息检索、数据挖掘等领域非常亟需解决的问题之一。目前,学术界对于人名消歧的研究已经取得了显著的成果,提出了很多人名消歧的算法。但是由于应用的领域的不同,
随着互联网的普及,互联网安全问题显得越来越突出。如何及时发现、识别各种网络威胁并保证系统安全运行已经成为当前研究的关注点之一。入侵检测系统(Intrusion Detection Sy
网格中的数据管理以命名的透明性、位置的透明性、协议的透明性、时间的透明性为目标,建立一个网格环境下数据一体化访问、存储、传输、维护的环境。它面向底层屏蔽网格中的
当前在消化道的体内极端环境中,医患双方都迫切需要提供可操控的医疗检测用可吞服式微型诊查工具。本课题主要研究医用胶囊内窥镜在人体内的无线定位,并给出了定位系统硬件电
随着Internet的发展和网上信息的愈加丰富,人们越来越依赖于网络获取需要的大量信息,搜索引擎正是在这样的背景下应运而生。然而,作为通用的信息提供工具,面对海量的互联网信
蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其